Python爬虫——多进程multiprocessing

最新推荐文章于 2022-09-15 19:16:52 发布

Marvin Ming

最新推荐文章于 2022-09-15 19:16:52 发布

阅读量6.5k

点赞数 1

分类专栏： python爬虫文章标签： python 爬虫多进程

本文链接：https://blog.csdn.net/qq_23926575/article/details/76375042

版权

python爬虫专栏收录该内容

5 篇文章 2 订阅

订阅专栏

本文探讨了Python爬虫中使用多进程的情况，尽管多进程在爬虫中提升速度效果有限，但实现相对简单。作者分享了一个实例，通过分割URL列表并采用多进程抓取数据，同时提到了并发写入文件可能导致的问题，并提供了解决方案。后续将介绍多线程和协程在爬虫中的应用。

摘要由CSDN通过智能技术生成

其实多进程相对来说不是特别适合用来做爬虫，因为多进程比较适用于计算密集型，而爬虫是IO密集型，因此多进程爬虫对速度的提升不是特别明显，但是将爬虫改为多进程比较简单，只需简单的几行代码即可搞定，所以在修改我的爬虫提升效率时，我最先实现的是多进程爬虫。（然而速度真心还是慢，我多线程+协程的程序跑的晚，却早已经结束工作了，多进程的还在苦战…）

下面我通过实例来进行介绍。

我爬取的数据是外文数据库的摘要信息，总共有几百万条记录，因此我首先将抓取得到的url列表文件进行分割，减小对内存的压力，免得全部加载占用内存过高（昨天看了关于迭代器的内容，感觉如果使用迭代器的话，效果会更好一点，减少很多内存压力，等我试水成功后再更新）。由于很多小伙伴可能没有访问外文数据库的权限，因此我在此不把url数据上传，对抓取的html页面进行分析的内容也不放上来。主要介绍如何改造原有代码为多进程爬虫。

# python2环境，3下差别不大(reload代码可能无法使用)
import requests
from bs4 import BeautifulSoup
import multiprocessing
import json
import datetime
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
path = sys.path[0] + '/data/'

多进程需要导入multiprocessing包。

def main():
    f = open(path + 'springerThesissList.txt', 'r')
    urlList = f.readlines() 
    pool = multiprocessing.Pool(3) #建立进程池，数字为你cpu的核数，括号内可以为空，程序会自动设定为cpu最大核数。
    pool.map(getThesis, urllist) #将url传入getThesis函数
def getThesis(url):
    """this is your code of scrap the url"""


if __name__ == '__main__':
    stime = datetime.datetime.now()
    print stime
    main()
    etime = datetime.datetime.now()
    print etime
    print etime - stime

getThesis(url)函数为抓取url下内容的函数，可自定义。
通过main()函数中的短短两行代码，我们就可以将爬虫改造成多进程爬虫了，但是上面的方法有一个问题，就是得到的文件中会有这样一种情况：当前行的内容还未写入完毕，下一行的内容就已写入。原因是多进程是并发执行函数，你在进程池中设立的数目为3，则就有三个进程同时进行抓取，并访问文件写入数据，这样就会出现上面的问题。可以通过下面的方法进行解决。

def main():
    listf = open(path + 'springerThesisList.txt', 'r')
    urlList = listf.readlines()
    pool = multiprocessing.Pool(3)
    for url in urllist:
        result = pool.apply_async(getThesis, (url, ), callback = jsonDump)
    pool.close()
    pool.join()
    if result.successful():
        print "successful"

jsonDump函数为我自定义的写入json数据的函数。此处将其作为回调函数对getThesis函数的返回结果进行处理。因此getThesis函数与之前的也略有不同，之前不需要该函数有返回值，但是在此处则需将其进行修改，在函数末尾加入一行代码，返回此函数抓取到的数据。因为在函数中我使用了try except来增强代码的容错性，因此返回值有可能为空，因此在jsonDump函数中，需要先判断dic是否为空。

outf = open(path + 'springerThesis.json', 'a')
def jsonDump(dic):
    if dic:
        json.dump(dic, outf, ensure_ascii=False)
        outf.write('\n')
def getThesis(url):
    """this is your code of scrap the url"""
    #×××
    #×××
    return dic