让你的爬虫速度提高100倍，就用这招！

最新推荐文章于 2023-11-15 15:54:06 发布

菜鸟学Python

最新推荐文章于 2023-11-15 15:54:06 发布

阅读量631

点赞数

文章标签：游戏 session vbscript glassfish vim

原文链接：https://wx.kaikeba.com/vip_course/xuen78w5pc/nwvvow1nht?tenant=wx5046bc7413796142

版权

听说过异步爬虫的同学，应该或多或少听说过aiohttp这个库。它通过 Python 自带的async/await实现了异步爬虫。

使用 aiohttp，我们可以通过 requests 的api写出并发量匹敌 Scrapy 的爬虫。

我们在 aiohttp 的官方文档上面，可以看到它给出了一个代码示例，如下图所示：

我们现在稍稍修改一下，来看看这样写爬虫，运行效率如何。

修改以后的代码如下：

import asyncio
import aiohttp

template = 'http://exercise.kingname.info/exercise_middleware_ip/{page}'


async def get(session, page):
    url = template.format(page=page)
    resp = await session.get(url)
    print(await resp.text(encoding='utf-8'))

async def main():
    async with aiohttp.ClientSession() as session:
        for page in range(100):
            await get(session, page)


loop = asyncio.get_event_loop()
loop.run_until_complete(main())

这段代码访问我的爬虫练习站100次，获取100页的内容。

大家可以通过下面这个视频看看它的运行效率：

可以说，目前这个运行速度，跟 requests 写的单线程爬虫几乎没有区别，代码还多了那么多。

那么，应该如何正确释放 aiohttp 的超能力呢？

我们现在把代码做一下修改：

import asyncio
import aiohttp

template = 'http://exercise.kingname.info/exercise_middleware_ip/{page}'


async def get(session, queue):
    while True:
        try:
            page = queue.get_nowait()
        except asyncio.QueueEmpty:
            return
        url = template.format(page=page)
        resp = await session.get(url)
        print(await resp.text(encoding='utf-8'))

async def main():
    async with aiohttp.ClientSession() as session:
        queue = asyncio.Queue()
        for page in range(1000):
            queue.put_nowait(page)
        tasks = []
        for _ in range(100):
            task = get(session, queue)
            tasks.append(task)
        await asyncio.wait(tasks)


loop = asyncio.get_event_loop()
loop.run_until_complete(main())

在修改以后的代码里面，我让这个爬虫爬1000页的内容，我们来看看下面这个视频。

可以看到，目前这个速度已经可以跟 Scrapy 比一比了。并且大家需要知道，这个爬虫只有1个进程1个线程，它是通过异步的方式达到这个速度的。

那么，修改以后的代码，为什么速度能快那么多呢？

关键的代码，就在：

tasks = []
for _ in range(100):
    task = get(session, queue)
    tasks.append(task)
await asyncio.wait(tasks)

在慢速版本里面，我们只有1个协程在运行。而在现在这个快速版本里面，我们创建了100个协程，并把它提交给asyncio.wait来统一调度。asyncio.wait会在所有协程全部结束的时候才返回。

我们把1000个 URL 放在asyncio.Queue生成的一个异步队列里面，每一个协程都通过 while True 不停从这个异步队列里面取 URL 并进行访问，直到异步队列为空，退出。

当程序运行时，Python 会自动调度这100个协程，当一个协程在等待网络 IO 返回时，切换到第二个协程并发起请求，在这个协程等待返回时，继续切换到第三个协程并发起请求……。程序充分利用了网络 IO 的等待时间，从而大大提高了运行速度。

推荐阅读:入门: 最全的零基础学Python的问题  | 零基础学了8个月的Python  | 实战项目 |学Python就是这条捷径量化: 定投基金到底能赚多少钱？  | 我用Python对去年800只基金的数据分析  干货:爬取豆瓣短评，电影《后来的我们》 | 38年NBA最佳球员分析 |   从万众期待到口碑扑街！唐探3令人失望  | 笑看新倚天屠龙记 | 灯谜答题王 ｜用Python做个海量小姐姐素描图 ｜碟中谍这么火，我用机器学习做个迷你推荐系统电影趣味:弹球游戏  | 九宫格  | 漂亮的花 | 两百行Python《天天酷跑》游戏!AI: 会做诗的机器人 | 给图片上色 | 预测收入 | 碟中谍这么火，我用机器学习做个迷你推荐系统电影小工具: Pdf转Word，轻松搞定表格和水印！ | 一键把html网页保存为pdf！|  再见PDF提取收费！ | 用90行代码打造最强PDF转换器，word、PPT、excel、markdown、html一键转换 | 制作一款钉钉低价机票提示器！ ｜60行代码做了一个语音壁纸切换器天天看小姐姐！｜年度爆款文案1).卧槽！Pdf转Word用Python轻松搞定！2).学Python真香！我用100行代码做了个网站，帮人PS旅行图片，赚个鸡腿吃3).首播过亿，火爆全网，我分析了《乘风破浪的姐姐》，发现了这些秘密 4).80行代码！用Python做一个哆来A梦分身 5).你必须掌握的20个python代码，短小精悍，用处无穷 6).30个Python奇淫技巧集 7).我总结的80页《菜鸟学Python精选干货.pdf》,都是干货 8).再见Python！我要学Go了！2500字深度分析！9).发现一个舔狗福利！这个Python爬虫神器太爽了，自动下载妹子图片
点阅读原文,领AI全套！