Python网络爬虫案例实战:爬虫网络概述-网络爬虫合法性

Python网络爬虫案例实战:爬虫网络概述-网络爬虫合法性

网络爬虫合法吗?
网络爬虫目前还属于早期的拓荒阶段,虽然互联网世界已经通过自身的协议建立了一定的道德规范(Robots 协议),但法律部分还在建立和完善中。从目前的情况来看,如果爬取的数据属于个人或科研范畴,基本不存在问题;而如果数据属于商业盈利范畴,就要就事而论,有可能属于违法行为,也有可能不违法。

1.3.1Robots 协议

Robots 协议(爬虫协议)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),
网络通过Robots 协议告诉搜索引擎哪些页面可以爬取,哪些页面不能爬取。该协议是国际互联网界通告的道德规范,虽然没有写入法律,但是每一个爬虫都应该遵守这项协议。
下面以淘宝网的robots.txt为例进行介绍。
这里仅截取部分代码,查看完整代码可以访问https://www.taobao.com/robots.txt。
在这里插入图片描述
在这里插入图片描述
在上面的robots文件中,淘宝网对用户代理为百度爬虫引擎进行了规定。
以Allow 项为开头的URL是允许robot访问的。例如,Allow:/article 允许百度爬虫引擎访问/article.htm 和/article/12345.com等。
以 Disallow项为开头的链接是不允许百度爬虫引擎访问的。例如,Disallow:/product/不允许百度爬虫引擎访问/product/12345.com等。
最后一行,“Disallow:/"禁止百度爬虫访问除了Allow 规定页面以外的其他所有页面。
因此,当你在百度搜索“淘宝”的时候,搜索结果下方的小字会出现:“由于该网站的robots.txt文件存在限制指令(限制搜索引擎爬取),系统无法提供该页面的内容描述”,如图1-10所示。百度作为一个搜索引擎,良好地遵守了淘宝网的robot.txt协议,所以你是不能从百度上搜索到淘宝内部的产品信息的。
在这里插入图片描述
淘宝的 Robots协议对谷歌爬虫的待遇则不一样,和百度爬虫不同的是,它允许谷歌爬虫爬取产品的页面Allow:/product。因此,当你在谷歌搜索“淘宝iphone8”的时候,可以搜索到淘宝中的产品。
但无论如何,你爬取的数据无论是否仅供个人使用,都应该遵守Robots 协议。

1.3.2网络爬虫的约束

除了上述Robots 协议外,使用网络爬虫的时候还要对自己进行约束:过于快速或者高频率的网络爬虫都会对服务器产生巨大的压力,网站可能封锁你的IP,甚至采取进一步的法律行动。因此,你需要约束自己的网络爬虫行为,将请求的速度限定在一个合理的范围之内。
实际上,由于网络爬虫获取的数据带来了巨大价值,因此网络爬虫逐渐演变成一场网站方与爬虫方的战争。在携程技术微分享上,携程酒店研发部研发经理崔广宇分享过一个“三月爬虫”的故事,也就是每年的3月份会迎来一个爬虫高峰期。因为有大量的大学生5月份交论文,在写论文的时候会选择爬取数据,也就是3月份爬取数据,4月份分析数据,5月份交论文。
因此,各大互联网巨头也已经开始调集资源来限制爬虫,保护用户的流量和减少有价值数据的流失。
2007年,爱帮网利用垂直搜索技术获取了大众点评网上的商户简介和消费者点评,并且直接大量使用,大众点评网多次要求爱帮网停止使用这些内容,而爱帮网以自己是使用垂直搜索获得的数据为由,拒绝停止爬取大众点评网上的内容,并且质疑大众点评对这些内容所享有的著作权。为此,双方打了两场官司。2011年1月,北京市海淀区人民法院做出判决:爱帮网侵犯大众点评网著作权威成立,应当停止侵权并赔偿大众点评网经济损失和诉讼必要支出。
2013年10月,百度诉360违反 Robots 协议。百度方面认为,360违反了Robots 协议,擅自爬取、复制百度网站内容并生成快照向用户提供。2014年8月7日,北京市第一中级人民法院做出一审判决,法院认为被告奇虎360的行为违反了《中华人民共和国反不正当竞争法》相关规定,赔偿原告百度公司70万元。
虽然说大众点评上的点评数据、百度知道的问答由用户创建而非企业,但是搭建平台需要投入运营、技术和人力成本,所以平台拥有对数据的所有权、使用权和分发权。
以上两起败诉案例告诉我们,在爬取网站的时候需要限制自己的爬虫,遵守Robots协议和约束网络爬虫程序的速度;在使用数据的时候必须遵守网站的知识产权。如果违反了这些规定,很可能吃官司,并且败诉的概率相当高。

在这里插入图片描述

  • 13
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值