为什么用python写爬虫_python-做爬虫，如何避免牢狱之灾-CSDN博客

随着数据资源的爆炸式增长，网络爬虫的应用场景和商业模式变得更加广泛和多样，网络爬虫技术为数据收集者提供了极大的便利，也给专业网络爬虫公司带来巨大的收益。但是与之相伴的是许多人好奇的一件事——爬虫是否违法？

关于这个问题，一直都是比较难定性的，因为爬虫本身只是个工具，就和菜刀一样，所以很多人都拿"菜刀无罪论"、"技术无罪论"来为爬虫辩护。那么，爬虫到底犯不犯法？作为一个程序员，如何避免这些坑呢？本文就为大家介绍一下程序员怎么跳出这些坑。

37d3d539b6003af3e2f672c128de0a591138b639.jpeg?token=77ddc5523f85caeb905bff871566ee69&s=98887C321F2A51245AF590DA0000C0B3

基本可以确定的是，如果爬虫使用不当，那么爬虫的开发者是有可能触犯法律的，而根据情况不同，获得的刑罚也有可能有差异。要看开发和使用爬虫是否犯法，需要从爬什么数据、如何爬取数据以及爬到数据之后怎么用三个方面来判断。接下来就简单分析一下：

一、爬什么数据犯法？

1、高度敏感信息，包括四种信息：行踪轨迹信息、通信内容、征信信息、财产信息。涉及高度敏感信息的违法活动，由于定罪门槛最低，因此严格限制在此四类，不做任何扩展；

2、敏感信息，即住宿信息、通信记录、健康生理信息、交易信息等其他可能影响人身、财产安全的公民个人信息。与第一类相比较，《解释》对第二类信息的界定仍留有空间，意味着在司法实践中，仍有可能会出现目前所列举之外的第二类信息类型；

3、其他个人信息。即上述第二、三类以外的个人信息。个人信息的类型是定罪量刑的重要依据。越敏感信息，达到定罪1 ]槛的信息数量越少。

二、怎么爬犯法？

如果是爬取公开的数据，通常不会被认为是侵权。Google、百度等搜索引擎都是这么爬取的。那么，到底怎么爬数据是有可能触犯法律的呢，主要考虑是否涉及以下两种行为：

未遵守Robots协议

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉爬虫哪些页面可以抓取，哪些页面不能抓取。

如何查看采集的内容是的有rebots协议？其实方法很简单。你想查看的话就在IE上打http://你的网址/robots.txt要是说查看分析robots的话有专业的相关工具站长工具就可以！

03087bf40ad162d939bc278c0f2b65e98813cdce.jpeg?token=1ca321cecf7455fd96a690af8b9f84b4&s=54107633035053C846F0F267030000F5

绕过防护措施对数据的访问，强行突破反爬措施

由于爬虫的批量访问会给网站带来巨大的压力和负担，因此许多网站经营者会采取技术手段，以阻止爬虫批量获取自己网站信息。企图通过技术手段，绕过网站的反爬机制，都属于《刑法》中规定的"侵入"，都是要被处罚的。

三、怎么用犯法？

比如通过爬虫抓取到的数据进行盈利、损害他人利益、造假、诽谤等都是可能触犯法律的。此外，未经被收集者同意，即使是将合法收集的公民个人信息向他人提供的，也属于刑法第二百五十三条之一规定的“提供公民个人信息”，可能构成犯罪。

总结

作为程序员，我们手里的技术就是工具，那么，我们有责任也有义务来保证我们的工具是用在正途的。最后，技术无罪、人会犯错、知错能改、善莫大焉。