Robots协议学习

学习了嵩天老师的爬虫专题课,总结一些学习内容

嵩天老师慕课课程链接:Python网络爬虫与信息提取_北京理工大学_中国大学MOOC(慕课) (icourse163.org)

 

Robots协议

  • 网络爬虫排除标准,用于告知网络爬虫哪些页面或资源可以抓取,哪些不行。
  • 一般来说,存在于网站根目录下的robots.txt文件里。
  • 如果一个网站没有提供robots协议,一般来说是全网站页面资源都可以抓取 

网络爬虫中

  • Request库用来爬取网页,规模较小
  • Scrapy库用来爬取网站或系列网站,数据规模较大
  • 爬取全网的爬虫,是大规模的搜索引擎,需要定制开发

Robots协议的基本语法

# 注释 

* 代表所有

/ 代表根目录

User-Agent:HTTP协议头的一个域,用于进行来源审查

Disallow: / :禁止访问的目录内容

案例 百度的Robots协议

链接为: baidu.com/robots.txt​​​​​​

 可以看到内容如下,我们写的爬虫应该能自动识别网站的robots.txt,在规则内进行内容爬取,或者提前看清楚协议内容手动爬取。(类人行为可以不用遵守:访问量小,不作为商业用途)

User-agent: Baiduspider   # 对于百度来说这个爬虫是一个恶意爬虫
Disallow: /baidu          # 不能爬取的内容
Disallow: /s?
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh

User-agent: Googlebot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh

User-agent: MSNBot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
Disallow: /bh

没有Robots协议的例子:http://www.moe.edu.cn/robots.txt

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Re.no1

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值