文章目录
-
- 01 啥是爬虫
- 02 爬虫本无罪!
- 03 爬虫的行为边界
- 04 爬虫的内容边界
- 05 结语:做个清单吧
01 啥是爬虫
嗯!今天聊爬虫~
爬虫,或者更严谨一点,网络爬虫(Web Crawler/Spider),通常是指按照一定的规则自动浏览和抓取互联网信息的程序或脚本,它可以通过自动向网站发送系列特定检索指令实现对网站内系列网页信息的浏览和收集。
从类型上来看,爬虫常见的分类包括通用爬虫、聚焦网络爬虫、增量式爬虫。
- 通用爬虫:搜索引擎获取信息的关键性技术之一就是通用爬虫,搜索引擎利用爬虫技术在网页间建立系统性关联,通过对网页信息的系统性获取,建立起针对这些网页内容的搜索服务;
- 聚焦爬虫:如果需要在特定网页深度获取特定信息(如某网站的产品种类、商品信息、价格信息、评论信息等特定内容),则对于此类应用场景需要编写在网页内获取特定信息的爬虫程序,这类爬虫就是所谓的聚焦网络爬虫;
- 增量式爬虫:增量式爬虫的主要功能是实时监测网站数据更新,判断网站是否有变化,从而爬取网站中最新更新出来的数据。
所以简单总结一下,爬虫其实就是一个程序化的自动看网页和找信息的小工具,是一个技术上完全中立的小工具。
02 爬虫本无罪!
既然只是一个自动浏览网页和收集信息的小工具,爬虫自己能有什么坏心眼呢~
的确如此!作为一个技术上完全中立的小工具,爬虫真的没有什么所谓的“原罪”。
“善意爬虫”在遵守网站的机器人协议(robots.txt)的前提下,对网页或网络公开接口进行爬取并不会影响网站正常运行、不会侵犯网站用户的个人信息和网站的重要数据资源的(如大型搜索引擎运用的通用网络爬虫),还会因为给相关网站增加流量并因此而受到欢迎。
所以,这是我们在后面讨论爬虫的各种风险之前,一定要先给爬虫做的一个澄清:
爬虫无罪!!!
即使它光是看名字就给人感觉“坏坏的”,并且关于它“干了很多坏事儿”的传闻也不绝于耳,我们还是要开宗明义地说,爬虫只是一个无毒无害的小工具,并没有任何原生的合规风险。
那为啥爬虫还是屡屡惹麻烦?这其实因为它经常被基于错误的方式用于爬取错误的内容。
这也就是爬虫风险的两大核心来源:
- 使用爬虫的方法不对。常见的表现就是爬得过于“粗暴”和“野蛮”,突破了被爬取对象允许的爬取范围,或者直接对被爬取对象的系统造成了影响或破坏。通过总结这一类风险,我们就能勾勒出“爬虫的行为边界”;
- 爬虫抓取的内容不对。这种情况就是爬虫抓取了不妥当的信息。不管是商业秘密也好、知识产权也好、个人信息也好,总之就是抓取的内容不对劲,侵权了。通过总结这一类风险,我们就能勾勒出“爬虫的内容边界”。
好了,至此,我们已经把理解和分析爬虫法律风险的全部方法论展示出来了。
沿着“行为”和“内容”两条主线,我们就能清晰地把爬虫合规的13条边界清晰地勾勒给大家。