Python 网络爬虫 010 (高级功能) 解析 robots.txt 文件

最新推荐文章于 2024-08-04 18:36:29 发布

AoboSir

最新推荐文章于 2024-08-04 18:36:29 发布

阅读量2.2w

点赞数 3

分类专栏： Python 爬虫 Python 网络爬虫文章标签： robots-txt 网络爬虫 python robotparse

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/github_35160620/article/details/52586126

版权

本文介绍如何使用Python解析robots.txt文件，遵循网站爬取规则。讲解了robots.txt文件的作用，以及如何利用Python的robotparse模块进行实战操作，避免爬虫触及网站禁止的页面。

摘要由CSDN通过智能技术生成

解析 `robots.txt` 文件

使用的系统：Windows 10 64位
Python 语言版本：Python 2.7.10 V
使用的编程 Python 的集成开发环境：PyCharm 2016 04
我使用的 urllib 的版本：urllib2

注意： 我没这里使用的是 Python2 ，而不是Python3

一 . 前言

之前，我在网络爬虫科普的时候，介绍过robots.txt 文件，如果你还了解这个文件的功能，请到这个博客学习。

有一些站点它在 robots.txt 文件中设定了禁止流量该站点的代理用户。既然目标站点有这样的规矩，我们就要遵循它。

我们需要做的事情就是：先解析 robots.txt 文件。然后在在对需要下载的网页进行判断是否可以爬取。

我们可以使用 Python 自带的 robotparser 模块，轻松的完成这项工作。下面进行实战。

二 . 原理

我们先来看看目标 robots.txt 文件&

最低0.47元/天解锁文章

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。