python网页爬虫循环获取_Python 爬虫第三篇（循环爬取多个网页）

最新推荐文章于 2023-07-12 09:57:17 发布

weixin_40003780

最新推荐文章于 2023-07-12 09:57:17 发布

阅读量3k

点赞数

文章标签： python网页爬虫循环获取

本篇是 python 爬虫的第三篇，在前面两篇 Python 爬虫第一篇（urllib+regex）和 Python 爬虫第二篇（urllib+BeautifulSoup）中介绍了如何获取给定网址的网页信息，并解析其中的内容。本篇将更进一步，根据给定网址获取并解析给定网址及其相关联网址中的内容。要实现这些功能，我们需要解决以下问题：

1. 如何持续不断的获取 url，并读取相关内容。

2. 如何判断网址是否已经读取过。

文中用到的代码均已上传到 github，在这里就不再贴出完整的代码了。

如何持续不断的获取网址，并读取相关内容？

要想读取网页内容，首先要获取网页的 url，但是我们又不能将所有的 url 都输入到程序中，此时就需要我们从已知的 url 中解析出其他的 url，从而不间断的获取新的 url读取新的内容，获取新的 url 可以通过解析含有 href 属性的 a 标签来实现，具体代码如下：for link in html.find_all(name='a', href=re.compile(r'https?://list|item.szlcsc.+')):

if len(self.__url_set) > self.__max_url_count:

return

url = link.get('href')

以上代码解析出所有的 a 标签中的 href 属性内容以 https://list.szlcsc 和 https://item.szlcsc为开头的 url 连接。在这里还是设置了一个最大的 url 解析量「由于在测试中需要一个停止条件」，默认值为1000。

从一个 url 中获取到更多的 ur

最低0.47元/天解锁文章

weixin_40003780

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
python网页爬虫循环获取_Python 爬虫第三篇（循环爬取多个网页）

本篇是 python 爬虫的第三篇，在前面两篇 Python 爬虫第一篇（urllib+regex）和 Python 爬虫第二篇（urllib+BeautifulSoup）中介绍了如何获取给定网址的网页信息，并解析其中的内容。本篇将更进一步，根据给定网址获取并解析给定网址及其相关联网址中的内容。要实现这些功能，我们需要解决以下问题：1. 如何持续不断的获取 url，并读取相关内容。2. 如何判...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。