接上一篇内容:Python+Selenium:Google patent数据爬取
Python+Selenium:Google patent数据爬取_醉雨轩^_^的博客-CSDN博客
鉴于单线程爬取效率太低,本文针对此问题,实现了多线程的爬取数据程序
并将爬取的数据,写入.csv文件
步骤1:建立线程池队列
if __name__ == '__main__':
# must use Manager queue here, or will not work
manager = mp.Manager()
q = manager.Queue()
pool = mp.Pool(mp.cpu_count() + 2)
注意:
- 线程数量可以根据自己设备,调整一下参数
- q为控制同步写入csv文件的队列变量
步骤2:执行线程任务
def runit(k,q):
results = []
# for k in part:
print("查询%s" % k)
result = sp.make_page_query(k)
# results.append(result)
q.put(result)
return