python 爬虫-3：id 遍历爬虫

最新推荐文章于 2020-10-26 19:39:17 发布

wangs0622

最新推荐文章于 2020-10-26 19:39:17 发布

阅读量1.1k

点赞数

分类专栏： python-爬虫文章标签： python url 爬虫遍历

本文链接：https://blog.csdn.net/wangs0622/article/details/76930980

版权

本文介绍了如何分析网页并编写基于ID遍历的Python爬虫来下载图片。主要内容包括理解网页URL规律，以及利用正则表达式、BeautifulSoup4和lxml库从网页源代码中抽取所需信息。对于不规则的URL变化，文章将延伸讨论链接爬虫的实现。

摘要由CSDN通过智能技术生成

简单的分析网页，根据分析的结果，编写 id 遍历爬虫下载图片。
程序的 main 函数如下：

def main():
    import itertools
    throttle = Throttle(10)
    start_url = 'http://www.mm131.com/xinggan/1550.html'
    max_num = 10
    counter = 0
    for i in itertools.count(1550):
        url = changeUrl(start_url, i)
        throttle.wait(url)
        html = download(url)
        if html == None: 
            counter +=

最低0.47元/天解锁文章

wangs0622

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python 爬虫-3：id 遍历爬虫

简单的分析网页，根据分析的结果，编写 id 遍历爬虫下载图片。程序的 main 函数如下：def main(): import itertools throttle = Throttle(10) start_url = 'http://www.mm131.com/xinggan/1550.html' max_num = 10 counter = 0
复制链接

扫一扫

专栏目录