为什么用python写爬虫_python-做爬虫,如何避免牢狱之灾

随着数据资源的爆炸式增长,网络爬虫的应用场景和商业模式变得更加广泛和多样,网络爬虫技术为数据收集者提供了极大的便利,也给专业网络爬虫公司带来巨大的收益。但是与之相伴的是许多人好奇的一件事——爬虫是否违法?

关于这个问题,一直都是比较难定性的,因为爬虫本身只是个工具,就和菜刀一样,所以很多人都拿"菜刀无罪论"、"技术无罪论"来为爬虫辩护。那么,爬虫到底犯不犯法?作为一个程序员,如何避免这些坑呢?本文就为大家介绍一下程序员怎么跳出这些坑。

37d3d539b6003af3e2f672c128de0a591138b639.jpeg?token=77ddc5523f85caeb905bff871566ee69&s=98887C321F2A51245AF590DA0000C0B3

基本可以确定的是,如果爬虫使用不当,那么爬虫的开发者是有可能触犯法律的,而根据情况不同,获得的刑罚也有可能有差异。要看开发和使用爬虫是否犯法,需要从爬什么数据、如何爬取数据以及爬到数据之后怎么用三个方面来判断。接下来就简单分析一下:

一、爬什么数据犯法?

1、高度敏感信息,包括四种信息:行踪轨迹信息、通信内容、 征信信息、财产信息。涉及高度敏感信息的违法活动,由于定罪门槛最低,因此严格限制在此四类,不做任何扩展;

2、敏感信息, 即住宿信息、通信记录、健康生理信息、交易信息等其他可能影响人身、财产安全的公民个人信息。与第一类相比较,《解释》对第二类信息的界定仍留有空间, 意味着在司法实践中,仍有可能会出现目前所列举之外的第二类信息类型;

3、其他个人信息。即上述第二、三类以外的个人信息。个人信息的类型是定罪量刑的重要依据。越敏感信息,达到定罪1 ]槛的信息数量越少。

二、怎么爬犯法?

如果是爬取公开的数据,通常不会被认为是侵权。Google、百度等搜索引擎都是这么爬取的。那么,到底怎么爬数据是有可能触犯法律的呢,主要考虑是否涉及以下两种行为:

未遵守Robots协议

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉爬虫哪些页面可以抓取,哪些页面不能抓取。

如何查看采集的内容是的有rebots协议?其实方法很简单。你想查看的话就在IE上打http://你的网址/robots.txt要是说查看分析robots的话有专业的相关工具 站长工具就可以!

03087bf40ad162d939bc278c0f2b65e98813cdce.jpeg?token=1ca321cecf7455fd96a690af8b9f84b4&s=54107633035053C846F0F267030000F5

绕过防护措施对数据的访问,强行突破反爬措施

由于爬虫的批量访问会给网站带来巨大的压力和负担,因此许多网站经营者会采取技术手段,以阻止爬虫批量获取自己网站信息。企图通过技术手段,绕过网站的反爬机制,都属于《刑法》中规定的"侵入",都是要被处罚的。

三、怎么用犯法?

比如通过爬虫抓取到的数据进行盈利、损害他人利益、造假、诽谤等都是可能触犯法律的。此外,未经被收集者同意,即使是将合法收集的公民个人信息向他人提供的,也属于刑法第二百五十三条之一规定的“提供公民个人信息”,可能构成犯罪。

总结

作为程序员,我们手里的技术就是工具,那么,我们有责任也有义务来保证我们的工具是用在正途的。最后,技术无罪、人会犯错、知错能改、善莫大焉。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值