源码剖析 - 轻量级异步爬虫框架 ruia

d6e4e183f9802afd6117b70047e643e9.png

前言

源码剖析 - 公众号采集阅读器 Liuli 一文中提到了 ruia,这篇文章就简单记录一下 ruia。

为啥要看?主要是在阅读 Liuli 的过程中,顺手看了一下 ruia 的仓库,发现代码量很少,其宣传中又强调除爬虫核心功能外的所有功能都通过插件的方式实现,我便对其插件系统的实现感到好奇,是像 Flask 那种动态引入呢?还是其他我不知道的方式?

老规矩,看前先理一下兴趣点,不然一头扎入细节,最后啥也带不走,我主要对以下 2 点感兴趣:

  • 1.ruia 的设计架构是怎么样的?

  • 2.ruia 如何使用插件系统?

观前提示,ruia 并没有实现插件系统,而是利用中间件的形式来实现所谓的插件,跟我自己理解的插件有所差异。

ruia 设计架构

如果你熟悉 Scrapy,那么 ruia 的使用方式和架构你会非常熟悉,因为我在自己开设的进阶爬虫课里手把手带领大家剖析过 Scrapy 框架的代码,所以我比较熟悉Scrapy,如果你不熟悉,本文你可能会比较懵逼。

d2d54f7b3d4fa9553f74d24f7695d48d.png

ruia 相比于 Scrapy 轻量很多,它没有调度器相关的逻辑,而是直接通过 Spider 完成完整的爬取逻辑,先以一个 Demo 为例,看看 ruia 的基本使用,部分代码如下:

class DoubanSpider(Spider):
    # 爬虫名称
    name = "DoubanSpider"
    # 入口url
    start_urls = ["https://movie.douban.com/top250"]
    # 爬虫相关配置
    request_config = {"RETRIES": 3, "DELAY": 0, "TIMEOUT": 20}
    concurrency = 10
    # aiohttp config
    aiohttp_kwargs = {}

    # 异步方法
    async def parse(self, response):
        # 异步阻塞等待
        html = await response.text()
        etree = response.html_etree(html=html)
        pages = ["?start=0&filter="] + [
            # 通过css选择器,获得需要进一步爬虫的url
            i.get("href") for i in etree.cssselect(".paginator>a")
        ]
        for index, page in enumerate(pages):
            url = self.start_urls[0] + page
            # 构建新的请求
            # 回调方法为parse_item
            yield self.request(
                url=url, metadata={"index": index}, callback=self.parse_item
            )

    async def parse_item(self, response):
        async for item in DoubanItem.get_items(html=await response.text()):
            yield item

    async def process_item(self, item: DoubanItem):
        self.logger.info(item)


if __name__ == "__main__":
    # 启动爬虫
    DoubanSpider.start()

从上述代码中,通过 Spider 的 start 方法启动爬虫,该方法代码如下:

@classmethod
def start(
    cls,
    middleware: typing.Union[typing.Iterable, Middleware] = None,
    loop=None,
    after_start=None,
    before_stop=None,
    close_event_loop=True,
    **spider_kwargs,
):
    # 获取事件循环
    loop = loop or asyncio.new_event_loop()
    # 实例化当前类,即类方法中的spider_ins变量为当前类的实例 - Scrapy也是这样做的
    spider_ins = cls(middleware=middleware, loop=loop, **spider_kwargs)

    # 启动事件循环,执行爬虫实例的_start方法
    spider_ins.loop.run_until_complete(
        spider_ins._start(after_start=after_start, before_stop=before_stop)
    )
    # 关闭事件循环中的异步生成器对象(asynchronous generator)
    spider_ins.loop.run_until_complete(spider_ins.loop.shutdown_asyncgens())
    if close_event_loop:
        # 关闭事件循环
        spider_ins.loop.close()

    return spider_ins

从上述代码可知,爬虫的完全流程为:

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

懒编程-二两

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值