python多线程异步爬虫-python网络爬虫——单线程+异步协程

- 在python3.4之后新增了asyncio模块,可以帮我们检测IO(只能是网络IO【HTTP连接就是网络IO操作】),实现应用程序级别的切换(异步IO)。注意:asyncio只能发tcp级别的请求,不能发http协议。

- 异步IO:所谓「异步 IO」,就是你发起一个 网络IO 操作,却不用等它结束,你可以继续做其他事情,当它结束时,你会得到通知。

- 实现方式:单线程+协程实现异步IO操作。

- 异步协程用法

接下来让我们来了解下协程的实现,从 Python 3.4 开始,Python 中加入了协程的概念,但这个版本的协程还是以生成器对象为基础的,在 Python 3.5 则增加了 async/await,使得协程的实现更加方便。首先我们需要了解下面几个概念:

event_loop:事件循环,相当于一个无限循环,我们可以把一些函数注册到这个事件循环上,当满足条件发生的时候,就会调用对应的处理方法。

coroutine:中文翻译叫协程,在 Python 中常指代为协程对象类型,我们可以将协程对象注册到时间循环中,它会被事件循环调用。我们可以使用 async 关键字来定义一个方法,这个方法在调用时不会立即被执行,而是返回一个协程对象。

task:任务,它是对协程对象的进一步封装,包含了任务的各个状态。

future:代表将来执行或没有执行的任务的结果,实际上和 task 没有本质区别。

另外我们还需要了解 async/await 关键字,它是从 Python 3.5 才出现的,专门用于定义协程。其中,async 定义一个协程,await 用来挂起阻塞方法的执行。

- 定义一个协程

示例:

from time importsleepimportasyncioasyncdefrequest(url):print("正在请求url")

sleep(2)print("下载成功")#返回一个特殊的协程对象,request函数内部不会被执行

c = request("www.baidu.com")#实例化一个事件循环对象

loop =asyncio.get_event_loop()#基于事件循环对象创建一个任务对象,并将协程对象封装到该对象中

task =loop.create_task(c)#另一种形式实例化任务对象的方法

task =asyncio.ensure_future(c)#将协程对象注册到事件循环对象中,并需要启动事件循环对象#当事件循环对象内的第一个参数遇到阻塞是,就会自动执行后面的对象,当第一个对象的阻塞结束是会上报给事件循环对象,然后事件循环对象继续执行第一个对象,从而达到异步的效果

loop.run_until_complete(task)

2.给任务对象绑定回调

importasyncio

asyncdefrequest(url):print("正在请求url")print("下载成功")returnurl#回调函数必须有一个参数:task【任务对象】#task.result():任务对象中封装的协程对象对应的特殊函数内部的返回值

defcallback(task):print("this is callback")print(task.result())

c= request("www.baidu.com")#创建一个任务对象

task =asyncio.ensure_future(c)#给任务对象绑定一个回调函数

task.add_done_callback(callback)#实例化一个事件循环对象

loop =asyncio.get_event_loop()#将协程对象注册到事件循环对象中,并需要启动事件循环对象

loop.run_until_complete(task)

3.多任务异步协程

importasyncioimporttime

urls= ["www.baidu.com","www.sogou,com","www.goubanjia.com"]

start_time=time.time()

asyncdefrequest(url):print("正在请求url")#在多任务异步协程事项中,不可以出现不支持异步的相关代码,sleep不支持

#sleep(2)

await asyncio.sleep(2)print("下载成功")

loop=asyncio.get_event_loop()#任务列表:防止多个任务对象

tasks =[]for url inurls:

c=request(url)

task=asyncio.ensure_future(c)

tasks.append(task)

loop.run_until_complete(asyncio.wait(tasks))print(time.time() - start_time)

4.多异步任务协程应用

#aiohttp:支持异步的一个基于网络请求的模块

importaiohttpimportasyncioimporttime

urls= ["http://127.0.0.1:5000/jay","http://127.0.0.1:5000/bobo","http://127.0.0.1:5000/tom",]

start_time=time.time()

asyncdefget_pageText(url):

async with aiohttp.ClientSession() as s:#实例化请求对象

async with await s.get(url) as response:

page_text=await response.text()print(page_text)#这里有返回值,是因为要用回调函数进行数据解析

returnpage_text#封装回调函数用于数据解析

defparse(task):#1.获取相应数据

page_text =task.reault()print(page_text+",即将进行数据解析...")#以下解析操作

tasks=[]for url inurls:

c=get_pageText(url)

task=asyncio.ensure_future(c)#给任务对象绑定回调函数用于数据解析

task.add_done_callback(parse)

tasks.append(task)

loop=asyncio.get_event_loop()

loop.run_until_complete(asyncio.wait(tasks))print(time.time() - start_time)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值