python爬虫urlid_Python 网络爬虫 008 (编程) 通过ID索引号遍历目标网页里链接的所有网页...

最新推荐文章于 2023-12-14 14:00:00 发布

谭嘉豪

最新推荐文章于 2023-12-14 14:00:00 发布

阅读量647

点赞数

文章标签： python爬虫urlid

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_32401411/article/details/111921930

版权

本文介绍了如何通过ID索引遍历目标网页中的链接，以实现爬虫下载整个站点内容。首先讲解了原理，即利用部分网站URL规律，通过ID匹配数据库记录。接着给出了基础代码实现，当遇到连续下载错误达到一定次数时才会停止。最后提醒了这种方法可能存在的局限性，并预告将探讨使用正则表达式提取网页链接。

摘要由CSDN通过智能技术生成

通过 ID索引号遍历目标网页里链接的所有网页

使用的系统：Windows 10 64位

Python 语言版本：Python 2.7.10 V

使用的编程 Python 的集成开发环境：PyCharm 2016 04

我使用的 urllib 的版本：urllib2

注意：我没这里使用的是 Python2 ，而不是Python3

一 . 前言

通过之前两节(爬取一个网页的网络爬虫和解决爬取到的网页显示时乱码问题)，我们终于完成了最终的 download() 函数。

并且上一节，我们通过网站地图解析里面的URL的方式爬取了目标站点的所有网页。这一节我再介绍一种方法来爬取一个网页里面所有的链接网页。

简单的说：就是利用一些网站结构的弱点，更加轻松地访问所有内容。

二 . 原理

对于一些网站，它里面的链接网址是由索引号设定的。举个例子：

下面这些网页的URL是同一个站点的：

它们之间有规律，前面(http://example.webscraping.com/view/)都是一样的，而后面是ID索引号。这样我们就可以使用这样的规律来对这个站点进行下载操作。

一般情况下，Web服务器会忽略ID索引号跟随的这个字符串，(这个字符串叫着：页面别名)，只使用ID来匹配数据库中的相关记录。也就是说：http://example.webscraping.com/view/1 这个网址也可以使用，得到的结果和访问 http://example.webscraping.com/view/Afghanistan-1 是一样的。

所以，我们只使用ID索引号是行得通的，网页依然可以成功加载。

三 . 代码

现在我们将来忽略页面别名，只遍历ID来下载这个站点(http://example.webscraping.com/view/)里面的所有网页。

简单的程序如下。这段代码我对ID索引号进行遍历，直到出现下载错误时停止，(我们现在就假设此时为：到达最后一个国家的页面。)

import itertools

def traverse_id():

for page in itertools.count(1):

url = 'http://example.webscraping.com/view/%d' % page

html = download(url)

if html is None:

break

else:

# success - can scrape the result

pass

四 . 运行：

先启动 Python27 的终端交互界面，执行下面的命令：

> C:\Python27\pytho

n.exe -i 1-4-3-id-traverse.py

执行：

>>>traverse_id()

输出：

Downloading: http://example.webscraping.com/view/1

Downloading: http://example.webscraping.com/view/2

Downloading: http://example.webscraping.com/view/3

Downloading: http://example.webscraping.com/view/4

Downloading: http://example.webscraping.com/view/5

上面这段代码是存在一个缺陷的：可能目标站点的某些ID索引号的网页已经被删除了，就是目标站点数据库的ID索引号不是连续的。那么，上面这段程序访问到目标站点的某个间断点，爬虫就会立即退出。所以我们需要对上面的代码进行升级。

五 . 代码升级：

下面的代码是升级后的代码。程序会在连续发生多次下载错误后才会退出程序。

import itertools

# maximum number of consecutive download errors allowed

max_errors = 5

# current number of consecutive download errors

num_errors = 0

for page in itertools.count(1):

url = 'http://example.webscraping.com/view/%d' % page

html = download(url)

if html is None:

# received an error trying to download this webpage

num_errors += 1

if num_errors == max_errors:

# reached maximum number of

# consecutive errors so exit

break

else:

# success - can scrape the result

# ...

num_errors = 0

上面这个程序就是实现了一个：如果连续5次下载错误才停止遍历的功能。这样做就可以很大程度上降低了遇到间断点时，过早停止遍历的风险。

搞定

总结：

在爬取网站时，使用遍历ID索引号是一个很便捷的方法。但是：

1 . 一些网站会检查页面别名是否满足预期，如果不是，则会返回 404 Not Found 错误。

2 . 另一些网站则会使用非连接的多位数字作为ID，或者根本就不使用数值作为ID，此时遍历就难以发挥其作用了。

所以在爬取网站的时候，使用的方法要根据网站的特点来选择使用。

下一节，我介绍在一个网页中使用正则表达式来得到这个网页中所有的链接URL。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。