Python下的多进程实现——利用multiprocessing库实现并发爬虫

最新推荐文章于 2025-05-12 06:38:14 发布

黑色芒果

最新推荐文章于 2025-05-12 06:38:14 发布

阅读量3.6k

点赞数

CC 4.0 BY-SA版权

文章标签： python process

本文链接：https://blog.csdn.net/u011497904/article/details/44288771

本文介绍如何使用Python的multiprocessing库实现多进程并发爬虫，重点讲解了Process类的使用方法，以及如何通过Manager实现进程间的数据共享。此外，还提供了一个16进程并发爬取网页的例子。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Python下的多进程实现——利用multiprocessing库实现并发爬虫

主要使用到的函数如下：
multiprocessing 库下的 Process
——实现多进程的主要函数
如果希望进程间共享数据，则使用Manager
——manager.dict( a ) 共享一个类型为字典的数据
——manager.list( a ) 共享一个类型为列表的数据
Value、Array，实现值共享、数组共享
——n = Value(‘i’, 7)
——x = Value(c_double, 1.0/3.0, lock=False)
if _name_ == ‘_main_‘:
——实现多进程的重要语句！类似于linux下的fork() == 0

和fork（)实现多进程的不同之处：

linux下fork会复制前面的从程序开始的栈帧，一直到fork之前的全部内存区域，包括变量、函数表等等
而python下略有不同的是，python并非复制，而是会执行一次前面的所有语句！
因此！利用 if __name__ == '__main__': 语句是很重要的！

简单的附上一小段python代码

本文提到的一些用法在python的官方文档都可以找到，而且更加详细。链接：https://docs.python.org/2/library/multiprocessing.html#process-and-exceptions 敬请查阅！不再重复搬运

if __name__ == '__main__':
    for i in tailset:
        if os.path.exists(savepath+i):
            print i,'[skip]'
            continue
        else:
            p = Process(target = download, args = (i,website,bookname,savepath,bookname))
            allprocess.append(p)
    #print allprocess
    forkset = []
    count = 0
    for i in allprocess:
        i.start()
        forkset.append(i)
        count+=1
        if count == 16:#more than 16 will be dangerous
            for proc in forkset:
                proc.join()
            count = 0
            forkset = []
            sleep(1)