菜菜的并发编程笔记 |（六）如何使用线程池改造爬虫程序详解

猿知

已于 2022-01-24 23:05:42 修改

阅读量412

点赞数

分类专栏： # 并发编程文章标签：爬虫 python 后端多线程多进程

于 2022-01-24 19:37:39 首次发布

本文链接：https://blog.csdn.net/Magic_Zsir/article/details/122673096

版权

并发编程专栏收录该内容

10 篇文章 0 订阅

订阅专栏

在这里插入图片描述
系列索引：菜菜的并发编程笔记 | Python并发编程详解（持续更新~）

文章目录

一、线程池的原理
二、使用线程池的好处
三、ThreadPoolExecutor的使用语法
四、使用线程池改造爬虫程序

一、线程池的原理

在这里插入图片描述

二、使用线程池的好处

在这里插入图片描述

三、ThreadPoolExecutor的使用语法

在这里插入图片描述
推荐使用map函数，和大家之前学的用法一样，能批量处理urls，得到一组results。第二种方法逐个从urls中取url提交到线程池中，得到的是future对象，我们使用result方法获取运行结果。as_completed函数和直接从futures取结果的区别在于后者是按照顺序获得结果，即futures中的结果是按先后顺序的，会有等待前一个结果的情况，而as_completed函数使用后的结果是按照输出顺序来的，即先运算完的在前。

四、使用线程池改造爬虫程序

使用with创建的进程池会自动释放，craw部分使用map函数获取一组htmls，zip是将urls和htmls中的各个元素组成元祖，再转换成列表。

解析部分使用字典存储结果，这里使用的是submit方法，因此加了for循环，将所有网页解析。使用字典将结果存储起来，具体的parse返回值等基础部分代码可参考这篇文章。

import concurrent.futures
import blog_spider

# craw
with concurrent.futures.ThreadPoolExecutor() as pool:
    htmls = pool.map(blog_spider.craw, blog_spider.urls)
    htmls = list(zip(blog_spider.urls, htmls))
    for url, html in htmls:
        print(url, len(html))

print("craw over")

# parse
with concurrent.futures.ThreadPoolExecutor() as pool:
    futures = {}
    for url, html in htmls:
        future = pool.submit(blog_spider.parse, html)
        futures[future] = url

    for future, url in futures.items():
        print(url, future.result())

    # for future in concurrent.futures.as_completed(futures):
    #     url = futures[future]
    #     print(url, future.result())

我们发现使用线程池的代码更加简洁，思路更加清晰。下一篇中我们将会讲解在WEB服务中使用线程池进行加速，欢迎关注~

Python进阶之并发编程篇持续更新，欢迎点赞收藏＋关注

上一篇：菜菜的并发编程笔记 |（五）线程安全问题以及Lock解决方案
下一篇：菜菜的并发编程笔记 |（七）在Web服务中使用线程池加速

本人水平有限，文章中不足之处欢迎下方👇评论区批评指正~

如果感觉对你有帮助，点个赞👍 支持一下吧 ~

不定期分享有趣、有料、有营养内容，欢迎订阅关注 🤝 我的博客，期待在这与你相遇 ~