查看网站的爬虫协议,简单介绍爬虫协议robots.txt,避免爬虫爬的好,牢饭吃得早(保姆级图文)

34 篇文章 6 订阅


欢迎关注 『Python』 系列,持续更新中
欢迎关注 『Python』 系列,持续更新中

什么是爬虫协议

正经正规网站一般都会有设置爬虫协议,规定哪些能够让你爬,哪些不能让你爬。
网页的爬虫协议就是Robots协议也叫robots.txt。

只要是在网站允许的范围内爬取数据,合法的使用数据,就可以避免避免爬虫爬的好,牢饭吃得早。


查询方法

打开一个网站的首页(必须是首页)

这里以简书为例子,简书的官网首页是

https://www.jianshu.com

在这里插入图片描述
在原来的首页网站后面加入/robots.txt

https://www.jianshu.com/robots.txt

得到了协议内容
在这里插入图片描述


解读协议内容

爬虫引擎限制

User-agent: *

  • *是通配符,表示可以被所有爬虫搜索引擎找到(一般网站都是这样,可以使得网站被更多引擎搜索到,增加曝光率)

User-agent: Crawler

  • 限制只有Crawler搜索引擎爬取

禁止爬取内容

Disallow: /search

  • 不允许爬取网站的search目录内容

请求速率

Request-rate: 1/2 # load 1 page per 2 seconds

  • 请求速率:1/2#每2秒加载1页

爬网延迟

Crawl-delay: 10

  • 爬网延迟:10
# See http://www.robotstxt.org/wc/norobots.html for documentation on how to use the robots.txt file
#
# To ban all spiders from the entire site uncomment the next two lines:
User-agent: *
Disallow: /search
Disallow: /convos/
Disallow: /notes/
Disallow: /admin/
Disallow: /adm/
Disallow: /p/0826cf4692f9
Disallow: /p/d8b31d20a867
Disallow: /collections/*/recommended_authors
Disallow: /trial/*
Disallow: /keyword_notes
Disallow: /stats-2017/*

User-agent: trendkite-akashic-crawler
Request-rate: 1/2 # load 1 page per 2 seconds
Crawl-delay: 60

User-agent: YisouSpider
Request-rate: 1/10 # load 1 page per 10 seconds
Crawl-delay: 60

User-agent: Cliqzbot
Disallow: /

User-agent: Googlebot
Request-rate: 2/1 # load 2 page per 1 seconds
Crawl-delay: 10
Allow: /

User-agent: Mediapartners-Google
Allow: /
#看http://www.robotstxt.org/wc/norobots.html有关如何使用机器人的文档。txt文件

#

#要禁止整个站点中的所有spider,请取消注释下面两行:

用户代理:*

不允许:/search

不允许:/convers/

不允许:/notes/

不允许:/admin/

不允许:/adm/

不允许:/p/0826cf4692f9

不允许:/p/d8b31d20a867

不允许:/collections/*/推荐作者

不允许/审判/*

不允许:/keyword\u注释

不允许:/stats-2017/*



用户代理:trendkite akashic爬虫

请求速率:1/2#每2秒加载1页

爬网延迟:60



用户代理:YisouSpider

请求速率:1/10#每10秒加载1页

爬网延迟:60



用户代理:Cliqzbot

禁止:/



用户代理:谷歌机器人

请求速率:2/1#每1秒加载2页

爬网延迟:10

允许:/



用户代理:Mediapartners谷歌

允许:/

总结

大家喜欢的话,给个👍,点个关注!继续跟大家分享敲代码过程中遇到的问题!

版权声明:

发现你走远了@mzh原创作品,转载必须标注原文链接

Copyright 2022 mzh

Crated:2022-1-15

欢迎关注 『Python』 系列,持续更新中
欢迎关注 『Python』 系列,持续更新中
【Python安装第三方库一行命令永久提高速度】
【使用PyInstaller打包Python文件】
【更多内容敬请期待】


  • 8
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
回答: 爬虫robots.txt是一个很小的文本文件,位于网站的根目录,用来告诉爬虫工具是否要抓取网站的某些部分。它通常是一个叫作robots.txt的文本文件,一般放在网站的根目录下,它的作用是告诉爬虫和搜索引擎哪些页面可以抓取,哪些不可以抓取。在编写robots.txt文件时,需要注意的几点是,文件需要遵循UTF-8编码,以及可以使用一些指令来标明禁止爬虫访问的链接,如Disallow指令。例如,可以使用以下指令来禁止Baiduspider爬虫访问/myself、/month和/disallow链接:User-Agent: Baiduspider Disallow: /myself Disallow: /month Disallow: /disallow。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [robots.txt不是很详细的详解](https://blog.csdn.net/luomaCLX/article/details/122532670)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 33.333333333333336%"] - *2* [爬虫:Robots协议](https://blog.csdn.net/Smart_look/article/details/121599170)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 33.333333333333336%"] - *3* [网站中的 robots.txt爬虫中的指导作用](https://blog.csdn.net/Together_CZ/article/details/86629056)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 33.333333333333336%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

发现你走远了

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值