robots.txt 简单解析

最新推荐文章于 2023-03-20 17:13:09 发布

weixin_30672019

最新推荐文章于 2023-03-20 17:13:09 发布

阅读量412

点赞数

文章标签： java 爬虫

原文链接：http://www.cnblogs.com/eat-too-much/p/11559116.html

版权

简介

robots.txt 是一个规范，对于执行正常操作的爬虫理应遵守的规范.

例子

博客园例子

https://www.cnblogs.com/robots.txt

User-Agent: *
Allow: /

允许所有爬虫爬取网站任何地址。

百度例子

User-agent: Baiduspider # 百度自己的爬虫
Disallow: /baidu # 不允许自己的爬虫爬取百度的站点 https://www.baidu.com/baidu.html
Disallow: /s?
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/ # /home/news/data/目录的所有内容

User-agent: Googlebot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/

参考链接

百度站长管理

转载于:https://www.cnblogs.com/eat-too-much/p/11559116.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30672019

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
robots.txt 简单解析

简介robots.txt 是一个规范，对于执行正常操作的爬虫理应遵守的规范.例子博客园例子https://www.cnblogs.com/robots.txtUser-Agent: *Allow: /允许所有爬虫爬取网站任何地址。百度例子User-agent: Baiduspider # 百度自己的爬虫Disallow: /baidu # 不允许自己的爬虫爬取百度的站...
复制链接

扫一扫