LLM时代智能网络爬虫：GitHub上31.8k星标！

本文链接：https://blog.csdn.net/m0_63171455/article/details/145964692

如今是AI 的时代，数据是 AI 的主粮。食物都是有保质期的，数据也是一样。

优秀如你一定知道爬虫的本质是争夺数据。

今天喵给大家推荐一款ai时代的爬虫软件 crawl4ai[1]，它不仅能轻松应对动态内容、反爬虫机制，还能通过大模型将数据转换成适合AI处理的Markdown格式。

Crawl4AI 核心优势

• 专为LLM设计：生成的Markdown格式简洁明了，适合RAG和微调应用。
• 速度更快：比传统爬虫快6倍，实时响应，成本低廉。
• 更加灵活的Hook：比较完善会话管理支持、代理和自定义钩子，能够比较轻松应对各种数据抓取场景。
• 干净的Markdown：生成结构化的Markdown，去除噪音，适合AI处理。
• 智能过滤：基于BM25算法，提取核心信息，去除无关内容。
• 自定义策略：用户可以根据需求自定义Markdown生成策略。
• LLM驱动提取：支持所有LLM（开源和专有）进行结构化数据提取。
• 远程浏览器控制：通过Chrome开发者工具协议连接远程浏览器，支持大规模数据抓取。
• 会话管理：保留浏览器状态，支持多步骤抓取。
• 代理支持：无缝连接代理，支持认证。

🚀 快速上手

1. 安装Crawl4AI

# 安装基础包   pip install -U crawl4ai      # 安装预发布版本   pip install crawl4ai --pre      # 运行安装后设置   crawl4ai-setup      # 验证安装   crawl4ai-doctor

如果看到如下输出，就证明安装成功了。

如果遇到浏览器相关问题，可以手动安装：

python -m playwright install --with-deps chromium

2. 运行一个简单的爬虫

通过提交一个url获取财联社电报资讯，会输出整理后的markdown文本。

import asyncio   from crawl4ai import *      asyncdefmain():       asyncwith AsyncWebCrawler() as crawler:           result = await crawler.arun(               url="https://www.cls.cn/telegraph",           )           print(result.markdown)      if __name__ == "__main__":       asyncio.run(main())

输出清理后的markdown

3、通过DeepSeek驱动进行数据处理

传统爬虫想要提取数据需要xpath匹配、css选择提取，或者写复杂绕脑的正则匹配。crawl4ai 的核心优势就是可以使用启发式Markdown生成。以下是通过获取财联社电报资讯、结构化json数据，并进行语义分析。

import asyncio   from crawl4ai import *   from pydantic import BaseModel, Field         classDeepSeekModel(BaseModel):       name: str = Field(..., description="资讯的标题")       content: str = Field(..., description="资讯内容")       result: str = Field(..., description="根据语义分类为：利好、中性、利空")   asyncdefmain():       asyncwith AsyncWebCrawler() as crawler:           result = await crawler.arun(               url="https://www.cls.cn/telegraph",               cache_mode=True,               word_count_threshold=1,               screenshot=True,               extraction_strategy=LLMExtractionStrategy(                   provider='deepseek/deepseek-chat',                   api_token="deepseek开放平台获取的apikey",                   base_url="https://api.deepseek.com",                   schema=DeepSeekModel.model_json_schema(),                   extraction_type="schema",                   instruction="从抓取的内容中提取所有的电报资讯，提取到资讯的标题和资讯内容，并且根据语义分类为：利好、中性、利空。一个提取的json格式应该是下面这样"                               "{'name':'资讯的标题','content':'资讯内容','result':'根据语义分类为：利好、中性、利空'}"                               ""               )           )           print(result.extracted_content)      if __name__ == "__main__":       asyncio.run(main())

Crawl4AI 不仅是一个工具，更是一种全新的数据抓取方式。如果你也想提升工作效率，可以试试Crawl4AI。

在这里插入图片描述

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述