解析 robots.txt 文件

最新推荐文章于 2022-10-10 22:07:33 发布

盒子盒子大盒子

最新推荐文章于 2022-10-10 22:07:33 发布

阅读量1.6k

点赞数

分类专栏： python爬虫文章标签： python爬虫

本文链接：https://blog.csdn.net/weixin_42821281/article/details/85254663

版权

python爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

在学习爬虫时有一些站点它在 robots.txt 文件中设定了禁止流量该站点的代理用户。既然目标站点有这样的规矩，我们就要遵循它。

我们需要做的事情就是：先解析 robots.txt 文件。然后在在对需要下载的网页进行判断是否可以爬取。

我们可以使用 Python 自带的 robotparser 模块，轻松的完成这项工作。下面进行实战。（在python3环境下进行）

先来看看目标 robots.txt 文件：http://example.webscraping.com/robots.txt

# section 1
User-agent: BadCrawler
Disallow: /

# section 2
User-agent: *
Crawl-delay: 5
Disallow: /trap 

# section 3
Sitemap: http://example.webscraping.com/sitemap.xml

这个 robots.txt 文件中说：对于BadCrawler 这样的代理用户是禁止浏览本站点的，我们现在使用这个 Python 自带的 robotparser 模块测试一下：

from urllib import robotparser
rp = robotparser.RobotFileParser()
rp.set_url('http://example.webscraping.com/robots.txt')  # 设置引用robots.txt文件的url
rp.read()  # 读取robots.txt url并将其提供给解析器
url = 'http://example.webscraping.com'
user_agent = 'BadCrawler'
print(rp.can_fetch(user_agent, url))
"-------False--------"
user_agent = 'GoodCrawler'
print(rp.can_fetch(user_agent, url))
"-------Ture--------"

上面这个测试说明了，如果你将你的爬虫程序的代理用户设置为： BadCrawler 的话，因为你访问的目标站点已经警告你了：“我们禁止用户代理为BadCrawler 的用户访问本站点里面的所有网站”。所以，我们用 robotparser 模块创建的对象，通过rp.can_fetch(user_agent, url)函数返回：False 。

在can_fetch() 函数前面的一堆都是初始化，can_fetch() 函数是在程序里面使用，它的功能：确定指定的用户代理是否允许访问网页。

盒子盒子大盒子

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
解析 robots.txt 文件

在学习爬虫时有一些站点它在 robots.txt 文件中设定了禁止流量该站点的代理用户。既然目标站点有这样的规矩，我们就要遵循它。我们需要做的事情就是：先解析 robots.txt 文件。然后在在对需要下载的网页进行判断是否可以爬取。我们可以使用 Python 自带的 robotparser 模块，轻松的完成这项工作。下面进行实战。（在python3环境下进行）先来看看目标 robots.t...
复制链接

扫一扫

专栏目录