python爬虫由浅入深2--反爬虫Robots协议

最新推荐文章于 2022-09-21 17:10:11 发布

王师北

最新推荐文章于 2022-09-21 17:10:11 发布

阅读量1.9k

点赞数

本文链接：https://blog.csdn.net/rytyy/article/details/78095531

版权

Robots协议：网络爬虫排除标准

在我们想要爬取某个站点时，可以通过查看此站点的相关Ｒｏｂｏｔｓ协议来查看哪些可以爬，哪些不能爬，当然，仅仅是网站维护者制定的规则而已，并不是说，他们禁的数据我们就爬不到

Robots协议的形式：在网站的Robots.txt中，例如https://www.baidu.com/robots.txt

进入后将会得到如下内容：

User-agent: Baiduspider
Disallow: /baidu
Disallow: /s?
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

User-agent: Googlebot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

如果一个站点没有robots,txt文件，则说明其上所有数据皆可爬取

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

王师北

关注关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
python爬虫由浅入深2--反爬虫Robots协议

Robots协议：网络爬虫排除标准在我们想要爬取某个站点时，可以通过查看此站点的相关Ｒｏｂｏｔｓ协议来查看哪些可以爬，哪些不能爬，当然，仅仅是网站维护者制定的规则而已，并不是说，他们禁的数据我们就爬不到Robots协议的形式：在网站的Robots
复制链接

扫一扫