python爬虫之 asyncio异步协程学习

最新推荐文章于 2023-02-13 17:37:25 发布

无恶不作杰尼龟

最新推荐文章于 2023-02-13 17:37:25 发布

阅读量313

点赞数

分类专栏： python爬虫文章标签： python

本文链接：https://blog.csdn.net/TTXSDEKK/article/details/110441536

版权

python爬虫专栏收录该内容

13 篇文章 5 订阅

订阅专栏

python爬虫之 asyncio异步协程学习

导包

import asyncio
import aiohttp

第一步：创建一个特殊的函数

async def get_request(url):

被 async 修饰的函数就是一个特殊函数，有一下特性：

该函数被调用，不会立即执行
函数被调用后返回一个协程对象

第二步：协程对象

调用特殊函数就会返回一个协程对象

c = get_request(url) # 这里变量c 就是一个协程对象

第三步：任务对象（高级的协程对象）
利用协程对象( c ) 固定语句创建

task = asyncio.ensure_future(c) #这里变量task 就是一个任务对象

第四步：事件循环 Event Loop

创建事件循环对象

loop = asyncio.get_event_loop()

用来存放多个任务对象。如果事件循环中存放了多个任务对象，事件循环启动后就可以异步的将每一个任务对象对应的指定操作执行。

第五步：将任务对象注册到事件循环中，并开启

loop.run_until_complete(task) #这里变量task 就是一个任务对象

将多个任务对象注册到事件循环中

loop.run_until_complete(asyncio.wait(tasks)) #asyncio.wait(tasks)表示将任务列表中的任务对象进行挂起

# tasks任务列表获取流程
tasks = []
for url in urls:
    c = get_request(url) #创建协程对象
    task = asyncio.ensure_futyre(c) #创建任务对象
    task.add_done_callback(parse) #绑定回调函数
    tasks.append(task) #把多个任务对象添加到任务列表中

第六步：数据的解析，持久化存储是不可以在特殊函数里面进行的，必须绑定一个回调函数。

基于任务对象（task）的回调函数绑定

task.add_done_callback(parse)  #这里的parse为回调函数的函数名，可以是任意变量名
# 这里parse()函数的参数就是任务对象本身(task),即parse(task)

parse()函数要获取task对象的返回值，需要调用task对象的result()方法：response= task.resule()

第七步：

async 定义的特殊函数内部不能用同步请求的模块(requests)，要用aiohttp异步请求模块。

async def get_request(url):
    async with aiohttp.ClientSession() as sess:
        async with await sess.get(url=url, headers=headers) as response: 
            content = await response.text() #text()返回字符串形式数据 read()返回二进制形式数据
# 在所有阻塞操作前面加上await 
#await 可以确保在异步执行操作的过程中阻塞操作的执行完毕

完整代码：

import asyncio
import time
import aiohttp
from lxml import etree

async def get_request(url):
    async with aiohttp.ClientSession() as sess:#实例化一个请求对象sess
        async with await sess.get(url) as response: #调用get发请求，返回一个响应对象
            page_text = await response.text() #获取了页面源码数据
            return page_text
def parse(task):
    #result():返回的就是特殊函数的返回值
    page_text = task.result()
    tree = etree.HTML(page_text) #解析
    data_text = tree.xpath('//a[@id="feng"]/text()')[0]
    wirh open ('....', 'w') as fp:   #持久化存储
        fp.write(data_text)
if __name__ == "__main__":
    urls = [
        'http://xxxxxx',
        'http://xxxxxx',
        'http://xxxx'
          ]
    tasks = []
    for url in urls:
        #创建三个协程对象
        c = get_request(url)
        #创建三个任务对象
        task = asyncio.ensure_future(c)
        task.add_done_callback(parse)#绑定回调
        tasks.append(task)
    loop = asyncio.get_event_loop()
    loop.run_until_complete(asyncio.wait(tasks))

无恶不作杰尼龟

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
python爬虫之 asyncio异步协程学习

python爬虫之 asyncio异步协程学习导包import asyncioimport aiohttp第一步：创建一个特殊的函数async def get_request(url):被 async 修饰的函数就是一个特殊函数，有一下特性：该函数被调用，不会立即执行函数被调用后返回一个协程对象第二步：协程对象调用特殊函数就会返回一个协程对象c = get_request(url) # 这里变量c 就是一个协程对象第三步：任务对象（高级的协程对象）利用协程对象( c )
复制链接

扫一扫