Python多进程抓取全国邮政编码和长途区号

由于Python设计的限制(就是咱们常用的CPython)最多只能用满1个CPU核心。Python提供了非常好用的多进程包multiprocessing,你只需要定义一个函数,Python会替你完成其他所有事情。借助这个包,可以轻松完成从单进程到并发执行的转换。使用进程池可以让你跑满多核CPU,而且使用方法非常简单。

Show You The Code:

import multiprocessing
import time
def func(msg):
 for i in xrange(3):
 print msg
 time.sleep(1)
 return "done " + msg
if __name__ == "__main__":
 pool = multiprocessing.Pool(processes=4)
 result = []
 for i in xrange(10):
 msg = "hello %d" %(i)
 result.append(pool.apply_async(func, (msg, )))
 pool.close()
 pool.join()
 for res in result:
 print res.get()
 print "Sub-process(es) done."

processes=4是最多并发进程数量,使用Pool,还需要关注每个进程的执行结果。下面以多进程抓取全国邮政编码和长途区号为例。目标站点:http://www.ip138.com

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

使用以下语句导入多线程模块:
from multiprocessing.dummy import Pool as ThreadPool

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=
multiprocessing包是Python中的多进程管理包,这个模块表示像线程一样管理进程,这个是multiprocessing的核心,它与threading很相似,对多核CPU的利用率会比threading好的多。Pool类可以提供指定数量的进程供用户调用,当有新的请求提交到Pool中时,如果池还没有满,就会创建一个新的进程来执行请求。如果池满,请求就会告知先等待,直到池中有进程结束,才会创建新的进程来执行这些请求。

Pool类中的map方法,与内置的map函数用法行为基本一致,它会使进程阻塞直到返回结果。虽然第二个参数是一个迭代器,但在实际使用中,必须在整个队列都就绪后,程序才会运行子进程。map函数用法如下:

map(func, iterable[, chunksize=None])

获取文本内容:

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=
对邮政编码进行解析:
640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

获取全国邮编结果如下: 640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

原文发布时间为:2016-10-28本文来自云栖社区合作伙伴“ Python中文社区”,了解相关信息可以关注“ Python中文社区”微信公众号
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值