系列索引:菜菜的并发编程笔记 | Python并发编程详解(持续更新~)
一、线程池的原理
二、使用线程池的好处
三、ThreadPoolExecutor的使用语法
推荐使用map函数
,和大家之前学的用法一样,能批量处理urls,得到一组results。第二种方法逐个从urls中取url提交到线程池中,得到的是future对象,我们使用result方法获取运行结果。as_completed
函数和直接从futures取结果的区别在于后者是按照顺序获得结果,即futures中的结果是按先后顺序的,会有等待前一个结果的情况,而as_completed函数使用后的结果是按照输出顺序来的,即先运算完的在前。
四、使用线程池改造爬虫程序
使用with创建的进程池会自动释放,craw部分使用map函数获取一组htmls,zip是将urls和htmls中的各个元素组成元祖,再转换成列表。
解析部分使用字典存储结果,这里使用的是submit方法,因此加了for循环,将所有网页解析。使用字典将结果存储起来,具体的parse返回值等基础部分代码可参考这篇文章。
import concurrent.futures
import blog_spider
# craw
with concurrent.futures.ThreadPoolExecutor() as pool:
htmls = pool.map(blog_spider.craw, blog_spider.urls)
htmls = list(zip(blog_spider.urls, htmls))
for url, html in htmls:
print(url, len(html))
print("craw over")
# parse
with concurrent.futures.ThreadPoolExecutor() as pool:
futures = {}
for url, html in htmls:
future = pool.submit(blog_spider.parse, html)
futures[future] = url
for future, url in futures.items():
print(url, future.result())
# for future in concurrent.futures.as_completed(futures):
# url = futures[future]
# print(url, future.result())
我们发现使用线程池的代码更加简洁,思路更加清晰。下一篇中我们将会讲解在WEB服务中使用线程池
进行加速,欢迎关注~
Python进阶之并发编程篇持续更新,欢迎
点赞收藏
+关注
上一篇:菜菜的并发编程笔记 |(五)线程安全问题以及Lock解决方案
下一篇:菜菜的并发编程笔记 |(七)在Web服务中使用线程池加速
本人水平有限,文章中不足之处欢迎下方👇评论区批评指正~如果感觉对你有帮助,点个赞👍 支持一下吧 ~
不定期分享 有趣、有料、有营养内容,欢迎 订阅关注 🤝 我的博客 ,期待在这与你相遇 ~