随着Python在最近几年的流行,Python中的爬虫也逐渐进入到大家的视野中,但是很多小伙伴,还是在担心爬虫的合法性。今天就来和大家一起讨论一下爬虫的合法性。
大家可能在网上看到很多有关程序员写爬虫被抓这样的新闻
- 只因写了一段爬虫,公司200多人被抓!
- 利用“爬虫”技术非法入侵抓数据公司被判刑
- 51信用卡被查,祸起爬虫抓取数据被银行举报
这引起了广泛的讨论,而这也是所有爬虫爱好者、从业者必须重视的问题
什么是爬虫
网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。只要是浏览器能做的事情,原则上,爬虫都能够做。
网络爬虫领域目前还属于拓荒阶段,虽然互联网世界已经通过自己的游戏规则建立起一定的道德规范(Robots协议),但法律部分仍在进一步建立和完善中,也就是说,现在这个领域暂时还是灰色地带。
在现在很多招聘平台上,大家可以看到爬虫工程师是有大量的需求的,在某拉,某直聘平台,搜索爬虫工程师会出现很多工作岗位,而且薪资从6K-40K都有。
所以大家可以看到爬虫本身其实并没有在法律上不被允许,不然公司怎么可能这么光明正大的去招聘呢?爬虫只是一门技术,技术本身是中立的。
在正常情况下,爬虫技术只是实现遵循网站规则,人工访问网络的自动化操作。但是也有人给爬虫装上渗透、多线程等技术,让自己的爬虫频繁访问,故意访问非公开数据。
这其实就带来了风险,那怎么就不合法了呢?
爬虫的本身是合法的,但是如何使用爬虫去获取数据的这一行为是具有风险的,我们举个栗子:
小王写了一个爬虫程序,每天抓取小姐姐的图片,但是有一天突然不满足了,要获取一些小姐姐付费隐私数据(你懂的~)。这个时候可能就会存在问题。
常见爬虫造成的问题有
很多小伙伴为了追求爬虫的效率,粗暴的开启了多线程爬虫,过度占用了目标网站服务器的资源,导致目标网站访问速度受限,甚至不能访问。
为了满足个人需求,强行突破网站所设置的反爬手段,盗取网站数据,更有甚者把爬取到的数据,未经允许发布到网上,使网站失去对数据的控制,造成网站运营经济损失。
还有就是很多小伙伴为了获取网站付费数据,造成他人数据被不正当地复制、使用。当然这也是很多小伙伴最感兴趣的部分,但是还是建议大家不要随便的抓取网站付费数据。
爬虫的本身是合法,但利用爬虫非法获取商业、个人数据也将将面临更高的处罚风险。
怎样的爬虫具有风险
强行突破网站设置的技术措施,由于爬虫的批量访问会给网站带来巨大的压力和负担,因此许多网站经营者会采取技术手段,来阻止爬虫获取自己网站信息。
常用的反爬虫措施
相信只要写过爬虫程序的小伙伴,对反爬或多或少一定是了解过的,现在解决反爬的手段也是多种多样。
首先比较简单的就是通过设置UA来做伪装浏览器,这个可以解决常见的一些反爬虫。
再有就是设置代理IP,通过代理IP去访问网站,有些网站如果超过一定的频率,会弹出验证码。
如果爬虫中用到了线程,一定要设置请求间隔时间,不然很容易被发现。
虽然存在多种不同的技术,本质上都是网站阻止爬虫批量抓取信息的技术手段,因此从法律上并没有实质性区别。而针对该等技术手段,爬虫开发者可以通过优化自己的代码、使用IP池等多种方式规避上述技术措施,实现对网站信息的批量抓取和复制。
爬虫不能涉及个人隐私
如果爬虫程序采集到公民的姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等个人信息,并将之用于非法途径的,则肯定构成非法获取公民个人信息的违法行为。
也就是说你爬虫爬取信息没有问题,但不能涉及到个人的隐私问题,如果涉及了并且通过非法途径收益了,那肯定是违法行为。
另外,还有下列三种情况,爬虫有可能违法,严重的甚至构成犯罪:
爬虫程序规避网站经营者设置的反爬虫措施或者破解服务器防抓取措施,非法获取相关信息,情节严重的,有可能构成“非法获取计算机信息系统数据罪”。
爬虫程序干扰被访问的网站或系统正常运营,后果严重的,触犯刑法,构成“破坏计算机信息系统罪”
爬虫采集的信息属于公民个人信息的,有可能构成非法获取公民个人信息的违法行为,情节严重的,有可能构成“侵犯公民个人信息罪”。
最后
“法不禁止即为许可”,如果爬虫就像浏览器一样获取的是前端显示的数据(网页上的公开信息)而不是网站后台的私密敏感信息,就不太担心法律法规的约束,因为目前大数据产业链的发展速度远远超过了法律的完善程度。
我们绝大多数公司和个人使用的爬虫都是没有问题的,不必人人自危,只要把握住不要爬取个人信息,不要利用爬虫非法获利,不要爬取网站的付费内容,基本上不会有问题。