Python爬虫——多进程multiprocessing

最新推荐文章于 2024-05-25 02:30:00 发布

Marvin Ming

最新推荐文章于 2024-05-25 02:30:00 发布

阅读量6.4k

点赞数 1

分类专栏： python爬虫文章标签： python 爬虫多进程

本文链接：https://blog.csdn.net/qq_23926575/article/details/76375042

版权

其实多进程相对来说不是特别适合用来做爬虫，因为多进程比较适用于计算密集型，而爬虫是IO密集型，因此多进程爬虫对速度的提升不是特别明显，但是将爬虫改为多进程比较简单，只需简单的几行代码即可搞定，所以在修改我的爬虫提升效率时，我最先实现的是多进程爬虫。（然而速度真心还是慢，我多线程+协程的程序跑的晚，却早已经结束工作了，多进程的还在苦战…）

下面我通过实例来进行介绍。

我爬取的数据是外文数据库的摘要信息，总共有几百万条记录，因此我首先将抓取得到的url列表文件进行分割，减小对内存的压力，免得全部加载占用内存过高（昨天看了关于迭代器的内容，感觉如果使用迭代器的话，效果会更好一点，减少很多内存压力，等我试水成功后再更新）。由于很多小伙伴可能没有访问外文数据库的权限，因此我在此不把url数据上传，对抓取的html页面进行分析的内容也不放上来。主要介绍如何改造原有代码为多进程爬虫。

# python2环境，3下差别不大(reload代码可能无法使用)
import requests
from bs4 import BeautifulSoup
import multiprocessing
import json
import datetime
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
path = sys.path[0] + '/data/'

多进程需要导入multiprocessing包。

最低0.47元/天解锁文章

Marvin Ming

关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫——多进程multiprocessing

其实多进程相对来说不是特别适合用来做爬虫，因为多进程比较适用于计算密集型，而爬虫是IO密集型，因此多进程爬虫对速度的提升不是特别明显，但是将爬虫改为多进程比较简单，只需简单的几行代码即可搞定，所以在修改我的爬虫提升效率时，我最先实现的是多进程爬虫。（然而速度真心还是慢，我多线程+协程的程序跑的晚，却早已经结束工作了，多进程的还在苦战…）下面我通过实例来进行介绍。我爬取的数据是外文数...
复制链接

扫一扫