02.Robots协议

最新推荐文章于 2022-12-12 13:15:13 发布

a540366413

最新推荐文章于 2022-12-12 13:15:13 发布

阅读量417

点赞数

分类专栏： Python 爬虫教程文章标签：网络爬虫

本文链接：https://blog.csdn.net/a540366413/article/details/59487534

版权

Python 爬虫教程专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Robots协议是规范网络爬虫爬去规范的一种协议，每个网站的robots协议都存储在根目录叫做robots.txt的文件，如果一个网站没有robots.txt则可以认为所有资源都可以爬取。

User-agent: *    #用来限制爬虫，*号代表所有爬虫都要遵守下面协议
Disallow: /scripts #不允许爬取包含/scripts路径
Disallow: /public
Disallow: /css/
Disallow: /images/
Disallow: /content/
Disallow: /ui/
Disallow: /js/
Disallow: /scripts/

User-agent设置对应爬虫，他下面的规则都是对这个爬虫的限制
Disallow：正则表达式，不允许访问能匹配这个正则的地址

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

a540366413

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
02.Robots协议

Robots协议是规范网络爬虫爬去规范的一种协议，每个网站的robots协议都存储在根目录叫做robots.txt的文件，如果一个网站没有robots.txt则可以认为所有资源都可以爬取。User-agent: * #用来限制爬虫，*号代表所有爬虫都要遵守下面协议Disallow: /scripts #不允许爬取包含/scripts路径Disallow: /publicDisallow:
复制链接

扫一扫