爬虫进阶-aiohttp异步模块

异步介绍:
  • 异步:当一个程序进入I\O时,程序不会一直等待,而是去处理其他工作
  • 基本协程&异步的爬虫结构:
async def xxx():
    pass
async def main():
    pass
if __name__ == '__main__':
    asyncio.run(mian())
aiohttp简述:
  • requests.get()是同步的代码,而aiohttp则是强大的异步爬虫
  • asyncio实现了TCP、UDP、SSL等协议,aiohttp则是基于asyncio实现的HTTP框架。
aiohttp使用:
  • 导入模块:import aiohttp
  • x = aiohttp.ClientSession() <==> requests模块
    • x.get() <==> requests.get()
    • x.post() <==> requests.post()
  • async with aiohttp.ClientSession() as xxx:
    • 使用async,实现异步操作
    • 使用with,可以在执行完毕后自动关闭
  • async with xxx.get(url) as res:
    • 利用协程get访问链接
    • res.content.read() <==> res.content
    • res.text() <==> res.text
  • 实例:
# 异步协程爬虫练习 -- 异步下载图片
import asyncio
import aiohttp
urls = [
    "http://kr.shanghai-jiuxin.com/file/2021/1104/d74a24d86d8b4a76ee39e90edaf99018.jpg",
    "http://kr.shanghai-jiuxin.com/file/2021/1104/d9a5dfe5771fcdd9ddb128f969d48956.jpg",
    "http://kr.shanghai-jiuxin.com/file/2020/0810/cf05e8310aceaa43a01530b84eebd380.jpg"
]
async def aiodownload(link):
    # 发送请求
    # 得到图片内容
    # 保存到文件
    name = link.rsplit("/",1)[1]
    async with aiohttp.ClientSession() as session:
        async with session.get(link) as res:
            with open('images/'+name, 'wb') as w:
                # 读取内容是异步的,需要await挂起
                w.write(await res.content.read())
    print(f"{name}下载完成")
async def main():
    tasks = []
    for link in urls:
        tasks.append(aiodownload(link))
    await asyncio.wait(tasks)
asyncio.run(mian())
# await main() 丘比特(Jupyter)写法
  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值