线程池
Python线程池是一种用于并发处理的技术,其核心思想是将多个任务分配给一组线程来执行,从而提高程序的运行效率。
线程池中包含了一定数量的线程,这些线程可以重复使用,避免了频繁地创建和销毁线程的开销。当有任务需要处理时,线程池中的线程会被分配给任务,并执行任务的代码。执行完任务后,线程会回到线程池中,等待下一个任务的到来。
线程池的好处是可以减少线程的创建和销毁开销,提高程序的性能和效率。同时,线程池中的线程可以被灵活地管理,可以控制线程的数量,防止线程过多导致系统资源耗尽的问题。
blog_spider.py见 day01
python并发编程学习笔记--初识多线程 day01_C&L的博客-CSDN博客
import concurrent.futures
import blog_spider
# craw
with concurrent.futures.ThreadPoolExecutor() as pool:
# 优点:比较简洁
# 缺点:不能随时提交任务,需要提前把任务按照列表准备好,并且返回时按照顺序进行返回的
htmls = pool.map(blog_spider.craw, blog_spider.urls)
htmls = list(zip(blog_spider.urls, htmls))
for url, html in htmls:
print(url, len(html))
print("craw over")
# parse
with concurrent.futures.ThreadPoolExecutor() as pool:
futures = {}
for url, html in htmls:
future = pool.submit(blog_spider.parse, html)
futures[future]=url
# for future, url in futures.items():
# print(url, future.result())
# 不是顺序,哪个先结束,哪个先返回
for future in concurrent.futures.as_completed(futures):
url = futures[future]
print(url, future.result())