spider之robots协议(新人小结)

网络爬虫与信息提取

**要求掌握定向网络数据爬取和网页解析的基本能力
希望能够坚持的理念
The website is API……….
想再多磨叽几嘴,还是算了吧,暴露我学艺不精的事实

一个网站想限制网络爬虫,有两个方法:一个是审查来源,一个是通过robots协议来进行告知

Robots.txt
全称:Robots Exclusion Standard 网络爬虫排除标准
其中一个很重要的作用:网站告知网络爬虫哪些网页可以爬取,哪些不行
形式:在网站根目录下的的robots.txt文件
eg:
京东的robots协议:
User-agent: *
Disallow: /?*
Disallow: /pop/*.html
Disallow: /pinpai/.html?
User-agent: EtaoSpider
Disallow: /
User-agent: HuihuiSpider
Disallow: /
User-agent: GwdangSpider
Disallow: /
User-agent: WochachaSpider
Disallow: /
解释下撒
¥对于任意网络爬虫均适用
¥任何网络爬虫都不允许爬取 ?开头的路径
¥任何爬虫都不允许爬取/pop/*.html
……….
最后是些被禁的爬虫 :易淘,惠惠什么的,不知道,不了解,不清楚
划重点
#教育部网站没有robots协议,我就在这,你来爬啊,爬到算我的 lol;


Robots协议的使用
网络爬虫:自动或人工识别Robots协议,再进行内容爬取;

个人对robots协议的理解

 - 爬取网页,访问量较小是可遵守,较大时建议遵守
 - 爬取网站或是一系列网站:非商业利益且偶尔爬取,建议遵守。涉及商业利益时,必须遵守
 - 爬取全网时,必须遵守

忘。。忘了
查询robots协议
网站名/robots.txt
不一定有效,但主流网站都是奏效的


最后一点
类人类行为不需要遵守robots协议
个人理解就是那种访问数据次数有限,并且对服务器影响很少的程序

see you!!!
God bless you !

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值