认识爬虫:在 python 爬虫过程中做一个正人君子?了解一下 robots.txt 文件吧?

什么是 robots.txt 文件?

网络爬虫程序在执行时,首先应该检查站点根目录是否存在 robots.txt 文件。当这个文本文件存在时应该按照它的规则来爬取执行相应的内容,也就是爬取站点开放范围内的内容。当然,如果说你的站点不想被任何形式的爬虫、这个时候搜索引擎也是不能收录你站点的内容的,搜索引擎不进行收录时网站的 SEO 优化也会受到影响。
robots.txt 文件防君子、不防小人。大多时候,robots.txt 文件的校验都被忽略了,最好在进行网络爬虫之前检验 robots.txt 文件是否存在,并且按照文件中定义的规则来检验爬虫的范围。

robots.txt 文件的定义规则是什么?

robots.txt 文件主要有 User-agent、Allow、Disallow 几个关键字来定义规则,User-agent 一般指的是对用户身份的限制,Allow、Disallow 主要是允许/拒绝访问 URL 地址。

实例一

1# 允许所有的 robot 进行访问
2
3User-agent: * 
4
5Allow: /

实例二

1#拒绝所有的 robot 进行访问
2
3User-agent: *
4
5Disallow: /

实例三

1#拒绝所有的 robot 访问某个目录
2
3User-agent: *
4
5Disallow: /user/load/data

实例四

1#允许所有的 robot 访问特定的目录
2
3User-agent: *
4
5Allow: /user/load
6
7Allow: /user/excel

实例五

1#拒绝所有的 robot 访问某个目录下面 html 结尾的文件
2
3User-agent: *
4
5Disallow: /api/*.html

实例六

1#仅允许所有用户访问 .jsp 结尾的文件
2
3User-agent: *
4
5Allow: .jsp$
6
7Disallow: /

在实际应用中可以根据具体站点的需求任意组合这三个关键字的使用,完成对爬虫规则范围的配置。

更多精彩前往微信公众号【Python 集中营】,专注于 python 技术栈,资料获取、交流社区、干货分享,期待你的加入~

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Python 集中营

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值