python爬虫中robots.txt和Sitemap文件的理解

1.robots.txt文件:禁止用户代理为BadCrawler的爬虫爬取该网站信息,详细信息http://www.robotstxt.org/robotstxt.html

2.#section 1

①代理跟许可

User-agent:BadCrawler
Disallow:/

***User-agent:代理用户;Disallow:排除的URL***

User-agent:*
Disallow:/cgi-bin/
Disallow:/tmp/
Disallow:/~joe/
***上面参数中排除了三个目录***
***每个要排除的URL都需要一个Disallow,不能全部写在一个Disallow中***全局表达式和正则表达式是不在用户代理或不允许行中支持。用户代理中的'*'是一个特殊的值,意思是“任何机器人”。具体来说,就不能有像“User-agent:bot*、disallow:/tep/*、disallow:*.gif”这样的行***

②将所有机器人排除在整个服务器之外

User-agent:*
Disallow:/

③允许所有机器人访问:或者创建一个空的robots文件或者直接不使用robots文件

User-agent:*
Disallow:

④将所有机器人排除在服务器的一部分之外

User-agent:*
Disallow:/cgi-bin/
Disallow:/tmp/
Disallow:/junk/

⑤排除单个机器人

User-agent:BadBot
Disallow:/

⑥允许一个机器人

User-agent:Google
Disallow:

⑦排除一个文件以外的所有文件:将所有不允许的文件放到一个单独的目录中,例如“Stuff”,然后将一个文件保存在这个目录智商的级别上

User-agent:*
Disallow:/~fool/Stuff/

⑧禁止所有页面

User-agent:*
Disallow:/~joe/junk.html
Disallow:/~joe/foo.html
---------------------------

***无论是哪种用户代理,都应该在两次下载请求之间有5秒的延迟,/trap连接是禁止链接,如果访问了这个链接,服务器就会禁封你的IP一分钟或者永久***

User-agent:*
Crawl-delay:5
Disallow:/trap

3.#section 3

①Sitemap文件说明:http://example.webscraping.com/sitemap.xml

--1.Sitemap:网站地图,配置在robots.txt文件中,标签为“<urlset>...</urlset>”

转载于:https://www.cnblogs.com/yangzhuanzheng/articles/10143288.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值