ScrapeGraphAI 教程：从入门到实践

最新推荐文章于 2025-02-13 23:21:34 发布

孙纯茉Norma

最新推荐文章于 2025-02-13 23:21:34 发布

阅读量1.5k

点赞数 3

本文链接：https://blog.csdn.net/gitblog_00640/article/details/141014248

版权

ScrapeGraphAI 教程：从入门到实践

项目地址:https://gitcode.com/gh_mirrors/sc/Scrapegraph-ai

1. 项目介绍

ScrapeGraphAI 是一个基于人工智能的Python web爬虫库，利用大型语言模型（如GPT-3或GPT-4）和直接图形逻辑来创建网站和本地文档的自动抓取管道。它简化了数据提取的过程，只需要提供要提取的信息，就能自动完成任务。该库支持多种格式的本地文件，包括XML、HTML、JSON和Markdown等。

2. 项目快速启动

安装

在命令行中使用以下命令安装ScrapeGraphAI库及其依赖：

pip install scrapegraphai
playwright install

推荐在虚拟环境中安装以避免与其他库产生冲突。

使用示例

下面展示了一个简单的SmartScraperGraph实例，用于从给定URL提取信息：

import json
from scrapegraphai.graphs import SmartScraperGraph

# 配置参数
graph_config = {
    "llm": {
        "api_key": "YOUR_OPENAI_APIKEY",
        "model": "gpt-4o-mini"
    },
    "verbose": True,
    "headless": False
}

# 创建实例
smart_scraper_graph = SmartScraperGraph(
    prompt="找到公司做什么的，公司名称以及联系邮箱。",
    source="https://scrapegraphai.com/",
    config=graph_config
)

# 运行爬虫
result = smart_scraper_graph.run()

# 输出结果
print(json.dumps(result, indent=4))

记得替换YOUR_OPENAI_APIKEY为你的OpenAI API密钥。