使用 map 函数进行多进程爬虫是一种在爬取大量数据时提高效率的方式。在 Python 中,可以使用 multiprocessing 模块创建进程池,并使用其 map 方法来并行执行爬虫任务。以下是一个简单的例子:
import requests
from multiprocessing import Pool
def download_page(url):
response = requests.get(url)
if response.status_code == 200:
return response.text
else:
return None
def crawl_page(url):
html = download_page(url)
if html:
# 在这里对页面进行解析或其他处理
print(f"Successfully crawled: {url}")
else:
print(f"Failed to crawl: {url}")
if __name__ == "__main__":
# 要爬取的网页链接列表
urls = ["https://example.com/page1", "https://example.com/page2", "https://example.com/page3", ...]
# 创建进程池,设置进程数量
with Pool(processes=4) as pool:
# 使用进程池的 map 方法并行执行爬虫任务
pool.map(crawl_page, urls)
在这个例子中,有两个主要函数:
download_page(url): 用于下载网页内容,返回页面的文本或 None。
crawl_page(url): 用于处理已下载的页面,这里只是简单地打印成功或失败的消息。
然后,使用 multiprocessing.Pool 创建了一个包含 4 个进程的进程池,并通过 pool.map(crawl_page, urls) 并行执行爬虫任务。urls 列表中的每个链接都会被传递给 crawl_page 函数并在不同的进程中执行。
请注意,这只是一个简单的示例。在实际应用中,你可能需要更复杂的爬虫逻辑和异常处理,以及确保对共享资源的正确访问。