通过网站地图爬取目标站点的所有网页
使用的系统:Windows 10 64位
Python 语言版本:Python 2.7.10 V
使用的编程 Python 的集成开发环境:PyCharm 2016 04
我使用的 urllib 的版本:urllib2
注意: 我没这里使用的是 Python2 ,而不是Python3
一 . 前言
通过前两节(爬取一个网页 的网络爬虫 和 解决爬取到的网页显示时乱码问题),我们终于完成了最终的 download()
函数。
这一节 和我未来的两节,我一个介绍 3种方法来爬取一个站点里面所有的网页。
这一篇博客,就来介绍第一种方法:使用目标网站的网站地图文件(Sitemap.xml)来爬取 目标站点里面的所有的网页。
二 . 原理
之前,我们在目标网站的 robots.txt
文件中发现了网站地图(Sitemap.xml 文件
),网站