Python 网络爬虫 007 (编程) 通过网站地图爬取目标站点的所有网页

本文介绍了如何使用Python 2.7和正则表达式,通过目标网站的Sitemap.xml文件爬取所有网页。首先阐述了通过网站地图爬取网页的原理,接着展示了具体代码实现,解释了如何解析Sitemap获取URL。虽然这种方法受限于站点是否提供Sitemap,但运行效果符合预期。
摘要由CSDN通过智能技术生成

通过网站地图爬取目标站点的所有网页

使用的系统:Windows 10 64位
Python 语言版本:Python 2.7.10 V
使用的编程 Python 的集成开发环境:PyCharm 2016 04
我使用的 urllib 的版本:urllib2

注意: 我没这里使用的是 Python2 ,而不是Python3


一 . 前言

通过前两节(爬取一个网页 的网络爬虫解决爬取到的网页显示时乱码问题),我们终于完成了最终的 download() 函数。
这一节 和我未来的两节,我一个介绍 3种方法来爬取一个站点里面所有的网页。

这一篇博客,就来介绍第一种方法:使用目标网站的网站地图文件Sitemap.xml)来爬取 目标站点里面的所有的网页。


二 . 原理

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值