(一)网络爬虫引发的问题
1.网络爬虫的尺寸
爬取网页 小 爬取速度不敏感 requests库 ≥90%
爬取网站 中 爬取速度敏感 scrapy库
爬取全网 大 爬取速度关键 定制开发
2.网络爬虫的“骚扰”
网站的骚扰问题:受限于编写水平和目的,网络爬虫将会为web服务器带来巨大的资源开销。
内容的法律风险:服务器上的数据产权归属;用于牟利
个人的隐私泄露:具备突破能力
3.限制网络爬虫
来源审查:判断User_Agent进行限制(对维护网站人员技术能力要求)
发布公告:robots协议
(二)robots协议
1.robots exclusion standard 网络爬虫排除标准
作用:网站告知网络爬虫哪些页面可以抓取,那些不行。
形式:在网站根目录下的robots.txt文件。
案例:http://www.jd.com/robots.txt
2.robots协议基本语法
user_agent: * 哪些爬虫
disallow: / 不允许访问目录
(三)robots协议的遵守方式
1.robots协议的使用
网络爬虫约束性,建议遵守。
若类人访问,可不遵守。
(四)单元小结
robots协议基本语法
user_agent: * 哪些爬虫
disallow: / 不允许访问目录
网络爬虫约束性,建议遵守。
若类人访问,可不遵守。不可进行商业用途。
二、网络爬虫的“盗亦有道”
最新推荐文章于 2022-04-14 14:45:57 发布