使用Crawlee-Python构建真实世界爬虫项目指南-CSDN博客

本文链接：https://blog.csdn.net/gitblog_00517/article/details/148490810

使用Crawlee-Python构建真实世界爬虫项目指南

crawlee-python Crawlee—A web scraping and browser automation library for Python to build reliable crawlers. Extract data for AI, LLMs, RAG, or GPTs. Download HTML, PDF, JPG, PNG, and other files from websites. Works with BeautifulSoup, Playwright, and raw HTTP. Both headful and headless mode. With proxy rotation. 项目地址: https://gitcode.com/gh_mirrors/cr/crawlee-python

前言

在数据采集领域，构建一个生产级的爬虫项目需要考虑诸多因素。本文将以Crawlee-Python框架为例，详细介绍如何开发一个能够处理真实电商网站数据的爬虫系统。我们将通过一个模拟的Warehouse电商网站案例，展示从需求分析到代码实现的全过程。

项目背景与目标

假设我们需要从一个电商网站采集商品数据，具体需求如下：

采集所有商品分类下的产品信息
对每个产品需要获取：
- 产品URL
- 制造商
- SKU编码
- 产品标题
- 当前价格
- 库存状态

技术选型分析

为什么选择PlaywrightCrawler

在这个项目中，我们选择使用PlaywrightCrawler而非简单的HttpCrawler，原因包括：

目标网站需要JavaScript渲染才能完整显示内容
产品详情页可能包含动态加载的数据
Playwright提供了更接近真实用户行为的浏览器环境

其他技术考量

反爬机制：虽然示例网站没有强力的反爬措施，但Playwright能更好地模拟人类行为
数据获取方式：直接解析HTML而非调用API，更通用但需要处理页面结构变化

爬虫架构设计

整体爬取策略

入口页面：从分类列表页开始（/collections）
分类处理：提取所有商品分类链接
分页处理：处理每个分类下的分页商品列表
详情采集：进入每个商品详情页提取完整数据

关键流程控制

graph TD
    A[开始:分类列表页] --> B[提取所有分类链接]
    B --> C[处理单个分类]
    C --> D{是否有下一页?}
    D -->|是| E[处理下一页]
    D -->|否| F[处理商品详情页]
    E --> C
    F --> G[提取商品数据]

开发前的准备工作

网站结构分析

分类页面结构：
- URL模式：/collections/{category-name}?page={page-num}
- 每页显示24个商品
- 分页控件位于页面底部
商品详情页结构：
- 包含完整的产品信息
- 需要解析多个HTML元素获取所需字段

元素定位技巧

使用Chrome DevTools进行元素定位：

右键点击页面元素选择"检查"
观察HTML结构中的CSS类名
使用.collection-block-item选择器定位分类卡片
在控制台测试选择器准确性：document.querySelectorAll('.collection-block-item')

基础代码实现

环境检查代码

在正式开发前，先编写一个简单的检查脚本验证我们的分析：

from crawlee import PlaywrightCrawler

async def parse_category(page):
    # 提取所有分类卡片
    categories = await page.locator('.collection-block-item').all()
    for category in categories:
        # 打印分类文本内容（粗略提取）
        print(await category.text_content())

# 创建爬虫实例
crawler = PlaywrightCrawler(
    request_handler=parse_category,
)

# 启动爬取
crawler.run(['https://warehouse-theme-metal.myshopify.com/collections'])

这段代码会：