python爬虫学习2——robots协议

最新推荐文章于 2023-12-08 20:47:09 发布

Zocrates

最新推荐文章于 2023-12-08 20:47:09 发布

阅读量310

点赞数

分类专栏：爬虫学习 python爬虫

本文链接：https://blog.csdn.net/qq_40806007/article/details/90274265

版权

爬虫学习同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

python爬虫

2 篇文章 0 订阅

订阅专栏

robots协议

robots协议是由网站设计者制定的，其目的是为告知爬虫哪些页面可以抓取，哪些不行。

可以将robots协议看作一个网站拥有者的公告栏，他告知爬虫们要遵守的爬取规则，但没有起到限制作用（爬虫可以不遵守这些规则）。

robots协议存储在网站根目录下的robots.txt文件内

我们以淘宝的robots协议为例看一下协议里都有哪些内容

访问https://www.taobao.com/robots.txt

User-agent:  Baiduspider
Allow:  /article
Allow:  /oshtml
Allow:  /ershou
Allow: /$
Disallow:  /product/
Disallow:  /

User-Agent:  Googlebot
Allow:  /article
Allow:  /oshtml
Allow:  /product
Allow:  /spu
Allow:  /dianpu
Allow:  /oversea
Allow:  /list
Allow:  /ershou
Allow: /$
Disallow:  /

User-agent:  Bingbot
Allow:  /article
Allow:  /oshtml
Allow:  /product
Allow:  /spu
Allow:  /dianpu
Allow:  /oversea
Allow:  /list
Allow:  /ershou
Allow: /$
Disallow:  /

User-Agent:  360Spider
Allow:  /article
Allow:  /oshtml
Allow:  /ershou
Disallow:  /

User-Agent:  Yisouspider
Allow:  /article
Allow:  /oshtml
Allow:  /ershou
Disallow:  /

User-Agent:  Sogouspider
Allow:  /article
Allow:  /oshtml
Allow:  /product
Allow:  /ershou
Disallow:  /

User-Agent:  Yahoo!  Slurp
Allow:  /product
Allow:  /spu
Allow:  /dianpu
Allow:  /oversea
Allow:  /list
Allow:  /ershou
Allow: /$
Disallow:  /

User-Agent:  *
Disallow:  /

user-agent代表爬虫来源（*代表全部）

disallow代表不能爬取的路径（/代表根目录）

Zocrates

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python爬虫学习2——robots协议

robots协议robots协议是由网站设计者制定的，其目的是为告知爬虫哪些页面可以抓取，哪些不行。可以将robots协议看作一个网站拥有者的公告栏，他告知爬虫们要遵守的爬取规则，但没有起到限制作用（爬虫可以不遵守这些规则）。robots协议存储在网站根目录下的robots.txt文件内我们以淘宝的robots协议为例看一下协议里都有哪些内容访问https://www.taob...
复制链接

扫一扫

专栏目录