旧文重发 | 爬虫工程师必须知道的几个法律案例

本文详细分析了网络爬虫在法律上的风险,包括民事和刑事两个方面,尤其关注爬取个人信息时可能涉及的不正当竞争、侵犯隐私权和刑事责任。爬虫行为是否合法取决于多种因素,如是否尊重网站反爬措施、是否侵犯个人隐私和著作权限等。对于程序员来说,了解并避免这些法律风险至关重要。
摘要由CSDN通过智能技术生成

专业干货!超长文,想看结论直接看文末!!!

爬虫究竟是合法还是违法的?

随着大数据的火热,数据相关行业竞争不仅“蒸蒸日上”,爬虫之间的战争也越发地激烈。一篇《你的爬虫会送老板进监狱吗?》在程序猿圈子里被大量转载,甚至有的程序员因为非法获取数据的新闻从而放弃了这一行当。那么,爬虫是什么,它会是悬在程序员头上的达摩克利斯之剑吗?

网络爬虫(英语:web crawler),也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人。通俗来讲,爬虫就是一项计算机技术,方便用户自动化、高效率地浏览互联网并从互联网上获取数据。最早的爬虫程序是1994年休斯敦大学的Eichmann开发的RBSE。著名的谷歌公司使用的Google Crawler是当时还是斯坦福大学生Brin和Page在1998年用Python开发的。(见罗刚《网络爬虫全解析:技术、原理与实践》,电子工业出版社,第65-66页。)

爬虫作为一种计算机技术就决定了它的中立性,因此爬虫本身在法律上并不被禁止,但是利用爬虫技术获取数据这一行为是具有违法甚至是犯罪的风险的。所谓具体问题具体分析,正如水果刀本身在法律上并不被禁止使用,但是用来捅人,就不被法律所容忍了。

详细分析

既然我们说爬取数据是有可能触犯法律的,那么我们就需要拆开分析一下到底什么情况下会被法律所制裁。爬取数据操作分为爬取的行为爬取获得的数据两方面,我们将分别论述。

1. 爬取行为的法律风险
1.1 民事风险

爬虫目前能造成的技术上影响在于野蛮爬取,即多线程爬取,从而导致网站瘫痪或不能访问,这也是大多数网络攻击所使用的方法之一。

由于爬虫会批量访问网站,因此许多网站会采取反爬措施。例如:1.IP频率、流量限制;2.请求时间窗口过滤统计;3.识别爬虫等。

但这些手段都无法阻止爬虫开发人员优化代码、使用多IP池等方式规避反爬措施,实现大批量的数据抓取。由于网络爬虫会根据特定的条件访问页面,因而爬虫的使用将占用被访问网站的网络带宽并增加网络服务器的处理开销,甚至无法正常提供服务。在《反不正当竞争法》第十二条第二款中我们可以发现,法律会对爬虫的这种行为进行规制。

即经营者不得利用技术手段,通过影响用户选择或者其他方式,实施下列妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为:…(四)其他妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为。

虽然上述规定是兜底条款,但其体现了法律禁止通过技术手段进行对他人非法干绕的总体原则。

因此,如果网站运营者已经采取了一定的反扒措施,而爬虫开发人员基于经营的目的、强行突破网站运营者采取的反爬措施,并客观上导致了网站无法正常运行,则很有可能构成上述规定所表述的不正当竞争行为。

但是在此种情况下鉴别爬虫者身份仍然是追责的一大阻碍,很多网站由于反爬机制落后,因而在法院诉讼中无法举证证明爬虫者因而得不到法院的支持。(见北京知识产权法院 (2016)京73民终588号案件)

1.2 刑事风险

强行突破某些特定的反爬技术措施,还会构成形式犯罪的行为。

《刑法》第二百八十五条规定,违反规定侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统的,不论情节严重与否,构成非法侵入计算机信息系统罪。《刑法》第二百八十六条还规定,违反国家规定,对计算机信息系统功能进行删除、修改、增加、干扰,造成计算机信息系统不能正常运行,后果严重的,构成犯罪,处五年以下有期徒刑或者拘役;后果特别严重的,处五年以上有期徒刑。而违反国家规定,对计算机信息系统中存储、处理或者传输的数据和应用程序进行删除、修改、增加的操作ÿ

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值