上一篇文章我们介绍了2025AI爬虫的4️⃣个工具,今天来做一个实战:用Crawl4ai做一次AI爬虫,看看是什么样子的
具体的介绍就不赘述了,大家可以看上一篇文章:2025AI爬虫新范式:4大实用AI工具,实现一句话完成网站数据爬取
饼干哥哥AGI
数据分析师,分享 AI在实际业务中落地的应用经验。
251篇原创内容
公众号
小试牛刀
先根据官方的代码安装起来:
# Install the package
pip install -U crawl4ai
# Run post-installation setup
crawl4ai-setup
# Verify your installation
crawl4ai-doctor
最后看到下图的样子,就证明安装、初始化成功了。
接下来我们测一下官方给的示例。
import asyncio
from crawl4ai import *
async def main():
async with AsyncWebCrawler() as crawler:
result = await crawler.arun(
url="https://www.nbcnews.com/business",
)
print(result.markdown)
if __name__ == "__main__":
asyncio.run(main())
官方的测试是一个新闻网站,但被墙了,需要🪜
新建py文件,把代码黏贴进去,直接运行后,结果显示,确实能正常抓取。
提取表格
最新版的Crawl4ai 有个新的功能:把网站上的表格抓取下来后,解析成pandas的DataFrame格式。
简单来说,之前我们需要手动去把下载下来的数据,清洗、结构化后,转成DataFrame格式再做分析。
现在是可以一步到位了。
我们看下这个官方示例给的是一个虚拟货币的网站,我们需要把下图中的表格给爬下来,并转成python 的表格,可以直接用于下一步分析。
但这里出了一个问题:官方给的示例无法用,如图,是不完整的,都是红色波浪线,直接运行会报错,我代码能力又差,不会改,怎么办?
很简单,让AI去改就好了。直接上Cursor。
但接下来又有新问题:因为这是crawl4ai的新功能,有些AI应该是没有学习的。
此时就可以用我们之前介绍的context7MCP,让AI自己去学习最新的文档,再来补全代码。
我用的提示词:
文件代码是crawl4ai的官方示例,效果是把如图 的网站表格数据抓取下来,保存为pandas的dataframe格式
但这个代码不完整,需要你用context7 mcp 找到最新的crawl4ai文档,把代码补充完整确保能正常使用
AI一顿操作之后,拿到的代码直接运行就能跑了,我们看到已经顺利把前面网站里的表格下载成了DF
还是挺顺利的,打开Excel看更完整一些,接下来就能用这些数据做分析。
动态加载
现在的网站很少静态了,大多数都是动态加载,也就是需要不断滚动才会加载新的内容,如果这个流程要自己处理就太麻烦了。
幸好,Crawl4ai内置了javascript的支持,我们可以直接写一句js代码,就能让页面一滚到底把所有内容加载。
result = await crawler.arun(
url="https://动态内容站点.com",
js_code="window.scrollTo(0, document.body.scrollHeight);",
wait_for="document.querySelector('.loaded')"
)
OK,至此,我们已经跑通了Crawl4ai 官方给的爬虫示例代码。但还没用上AI的地方。
要知道,我们之所以用这些框架,就是想让AI来帮我们解决爬虫中的难题。
所以接下来我们来看下怎么在Crawl4ai用AI来做爬虫?
进阶:大模型动态加载爬取电商评论
还是业务场景先行,我选择了一个高频的场景:电商商品评论爬取。(后续爬下来的评论数据还可以做文本分析,挖掘出有商业价值的信息)
网址是:
https://www.amazon.com/PawSwing-AutoComb-Automatic-Surround-biomimetic/dp/B0DMSVNTC1
往下翻能看到评论列表:
利用playwright MCP初始化脚本
在原先Cursor的窗口下,直接让AI先帮我们完成代码的撰写:
现在需要你写一个Crawl4ai的脚本,把这个亚马逊产品下的评论抓取出来:顾客姓名、标题、国家、时间、评论内容等,你可以先用playwright mcp去看一下这个网站,然后再修改
发现没有,我没有让AI直接去写代码,而是让它先去看一眼这个网站长什么样,然后再写代码。
因为每个网站加载流程、速度、结构都是不同的,贸贸然写一个通用的代码,很可能跑不通。
话说回来,我们已经能看到AI Called MCP tool,自动打开亚马逊网站,并且`get_visible_html`,也就是看了一眼。
得到的代码如下,整体很长,我截了一些关键部分,包括建议也放到了注释里:
# 1. 定义亚马逊评论的数据模型
classAmazonReview(BaseModel):
customer_name:
review_title:
country_and_date:
review_body:
image_urls:
rating:
# 2. 使用LLMConfig来配置AI模型
llm_config = LLMConfig(
provider=provider,
api_token=api_token,
base_url=base_url
)
# 3. 设置AI爬取数据的策略,关键就是提示词
strategy = LLMExtractionStrategy(
llm_config=llm_config,
schema=AmazonReview.model_json_schema(),
extraction_type="schema",
instruction=f"""
从提供的HTML内容中提取亚马逊产品评论信息。
评论通常包含在一个带有 'data-hook="review"' 属性的<div>元素中。
请为每个评论提取以下信息,并构造成一个JSON对象列表:
1. `customer_name`: 评论者的名字,通常在一个带有 'data-hook="genome-widget"' 的span元素内或附近。
2. `review_title`: 评论的标题,通常在一个带有 'data-hook="review-title"' 的span或a元素内,可能是加粗的文本。
3. `country_and_date`: 评论的国家和日期,通常在一个带有 'data-hook="review-date"' 的span元素内,格式类似于 "Reviewed in [国家] on [日期]"。
4. `review_body`: 评论的正文内容,通常在一个带有 'data-hook="review-body"' 的span元素内。
5. `image_urls`: 评论中用户上传的图片URL列表。图片通常是<img>标签,其父元素可能带有 'review-image-tile' 或类似class。请提取<img>标签的'src'属性。如果没有图片,则此字段为null或空列表[]。
6. `rating`: 评论的星级评分,通常在评论标题附近或评论正文开头。
确保提取尽可能多的评论。忽略页面上非评论区域的内容。
""",
chunk_token_threshold=8000, # 改回合理的分块阈值
apply_chunking=True, # 对大型页面进行分块处理
input_format="html",
verbose=True# 开启LLM策略的详细日志
)
# 4. 对浏览器的设置,尤其是反爬厉害的网站一定要设置
browser_config = BrowserConfig(
headless=False, # 可以设为True在后台运行
java_script_enabled=True, # 确保JavaScript加载评论
# 可以添加代理、user-agent等配置来模拟真实用户,减少被屏蔽的风险
# user_agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
viewport={"width": 1280, "height": 800},
verbose=True# 开启浏览器配置的详细日志
)
# 5. 爬虫配置
crawler_config = CrawlerRunConfig(
cache_mode=CacheMode.BYPASS,
page_timeout=90000, # 增加页面加载超时时间,亚马逊页面可能较慢
extraction_strategy=strategy,
# 增加等待时间,确保动态加载的评论内容出现
# 注意:crawl4ai目前没有直接的wait_for_selector或类似playwright的精细等待机制
# 可以通过 page_timeout 间接控制等待时间,或者后续考虑用playwright直接操作
verbose=True# 开启爬虫运行的详细日志
)
# 6. 开始爬取
result = await crawler.arun(
url=self.url,
config=self.crawler_config,
js_code="window.scrollTo(0, document.body.scrollHeight);",
wait_for="document.querySelector('.loaded')"
)
完成爬取
看下结果还是不错的
尤其是image_url能直接把图片地址整理好。
Crawl4ai的逻辑是会一开始先把HTML全部扔给AI然后让AI出解析的策略,再拆分成多个模块逐个给到AI去解析数据。
这里就有个要点:选择模型要注意支持「大上下文」的
我一开始选的deepseek v3 ,太小了,导致一开始啃不下整个HTML导致报错
后来我改用gemini-2.5-pro-exp-03-25才成功
很烧token,大家可以感受一下,我抓了24条评论,消耗了多少:
总消耗:992,830 (Prompt) + 6,348 (Completion) = 999,178 tokens
如果gemini-2.5-pro-preview-03-25的费用来算,大概是1.3美金(Gemini帮我算的,幸好我用的是免费的版本。)
总结
说实话,爬虫的话RPA效果好很多,但RPA似乎是一个伪命题,需要自己去搭流程、去抓元素、去设计抓取逻辑等等,一个无代码工具反而让小白无所适从,得从头好好学习才行。
现在AI爬虫比较可行的方案是基于Cursor,搭配Playwright MCP去开发Crawl4ai的脚本。
虽然现在还不是非常好用,但或许在不久的未来会是一个很丝滑的AI爬虫体验。
如何学习AI大模型?
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓