使用 n8n 实现你的第一个爬虫程序：从零到自动化

最新推荐文章于 2025-05-16 10:25:39 发布

木觞清

最新推荐文章于 2025-05-16 10:25:39 发布

阅读量1.5k

点赞数 15

文章标签：爬虫自动化运维

本文链接：https://blog.csdn.net/qq_43580271/article/details/147517149

版权

在当今数据驱动的时代，网络爬虫（Web Scraping）是获取和分析数据的重要方式之一。传统爬虫需要编写代码（如 Python + Scrapy），但如果你不想折腾代码，又想快速实现爬虫功能，n8n 是一个绝佳的选择！

n8n 是一个 开源、可视化、低代码的自动化工具，可以轻松搭建爬虫工作流，甚至能自动存储、清洗和转换数据。

在这篇教程中，我将带你 从零开始，用 n8n 实现第一个爬虫程序，目标是从一个示例网站（比如 Quotes to Scrape）抓取名言数据，并保存为结构化格式（如 JSON 或 CSV）。

在开始之前，确保你已经安装好 n8n：

在线体验：n8n.cloud（免费试用）
本地安装（推荐）：
```
npm install n8n -g
n8n start
```
访问 http://localhost:5678 即可进入 n8n 面板。

现在我们需要从 HTML 中提取 名言、作者、标签 等信息。

添加 HTML Extract 节点，并连接到 HTTP Request
配置提取规则（示例）：
- Extraction Values:
  - quote（名言）: .quote .text（CSS 选择器）
  - author（作者）: .quote .author
  - tags（标签）: .quote .tags
点击 Execute Node，你应该能看到结构化数据

你可以将数据保存到 文件、数据库或 Google Sheets，例如：

如果想爬取多页数据，可以使用 Loop 节点（如 Function 或 HTTP Request 循环）：

http://quotes.toscrape.com/page/1/
http://quotes.toscrape.com/page/2/
...

如果目标网站是 SPA（单页应用），可以使用：

使用 Cron 节点，让爬虫每天自动运行：

0 8 * * *  # 每天 8:00 运行

完成后的工作流大致如下：

HTTP Request → HTML Extract → (可选: 数据清洗) → 存储（JSON/CSV/Database）

你可以在 n8n 的 JSON 导出 里保存这个工作流，方便下次复用！

如果你遇到问题，欢迎在 评论区留言！🚀

👉 下一篇预告：《如何用 n8n 爬取动态渲染网页（Puppeteer 实战）》

（附：完整 n8n 爬虫 JSON 配置，可在评论区获取！）