解析 robots.txt
文件
使用的系统:Windows 10 64位
Python 语言版本:Python 2.7.10 V
使用的编程 Python 的集成开发环境:PyCharm 2016 04
我使用的 urllib 的版本:urllib2
注意: 我没这里使用的是 Python2 ,而不是Python3
一 . 前言
之前,我在网络爬虫科普的时候,介绍过robots.txt
文件,如果你还了解这个文件的功能,请到这个博客学习。
有一些站点它在 robots.txt
文件中设定了禁止流量该站点的代理用户。既然目标站点有这样的规矩,我们就要遵循它。
我们需要做的事情就是:先解析 robots.txt
文件。然后在在对需要下载的网页进行判断是否可以爬取。
我们可以使用 Python 自带的 robotparser
模块,轻松的完成这项工作。下面进行实战。
二 . 原理
我们先来看看目标 robots.txt
文件&