当AI遇上爬虫：ScrapeGraphAI结合LLM实现前所未有的网页抓取效率，一言即搜！

会AIGC的小孩

于 2024-07-25 11:22:19 发布

阅读量1k

点赞数 25

文章标签：人工智能爬虫计算机视觉美女产品经理

本文链接：https://blog.csdn.net/mate1357/article/details/140685073

版权

cover_image

🌟ScrapeGraphAI 是一个网络抓取Python 库，它使用 LLM 和直接图形逻辑为网站、文档和 XML
文件创建抓取管道。只需说出您想要提取哪些信息，ScrapeGraphAI就会为你完成！

在当今数据驱动的世界中，网络抓取已成为从广阔的互联网中收集信息的重要工具。
然而，传统的网络抓取工具往往难以适应网站的动态特性，需要开发人员不断维护和更新。

输入 ScrapeGraphAI，这是一个革命性的 Python 库，它利用大型语言模型 (LLMs) 的强大功能和直接图形逻辑来创建灵活且适应性强的
Web 抓取管道。

ScrapeGraphAI 代表了网络抓取领域的重大进步，提供了一个开源解决方案，旨在应对当今不断发展的网络环境的挑战。这就是 ScrapeGraphAI
脱颖而出的原因：

直接图逻辑 ：此功能使用基于图的方法动态创建爬取管道，确保基于用户定义的提示实现高效的数据检索。

多功能模型和API
：ScrapeGraphAI支持各种模型和API，包括OpenAI的GPT、Docker、Groq、Azure等，允许用户根据自己的抓取需求选择最佳选项。

灵活性和适应性 ：传统的网页抓取工具通常依赖于固定模式或手动配置来从网页中提取数据。ScrapeGraphAI 由 LLMs
提供支持，可适应网站结构的变化，减少开发人员持续干预的需要。

易于安装 ：通过简单的 pip install 命令，用户可以快速设置 ScrapeGraphAI 并开始从网站、文档和 XML 文件中抓取数据。

🕷️ ScrapeGraphAI：您只需一次爬取

🚀 快速安装

Scrapegraph-ai 的参考页面可在 pypy 的官方页面上找到： pypi 。

pip install scrapegraphai

您还需要安装 Playwright 以进行基于 JavaScript 的爬取：

playwright install

注意：建议在虚拟环境中安装库，以避免与其他库的冲突 🐱

🔍 演示

官方 streamlit 演示：

https://skillicons.dev/icons?i=react)](https://scrapegraph-ai-demo.streamlit.app/

在网上直接尝试使用 Google Colab：

https://colab.research.google.com/assets/colab-badge.svg

按照以下链接上的步骤设置您的 OpenAI API 密钥：[link]：

https://scrapegraph-ai.readthedocs.io/en/latest/index.html

📖 文档

ScrapeGraphAI 的文档可以在[这里]：

https://scrapegraph-ai.readthedocs.io/en/latest/

还请查看 docusaurus [文档]：

https://scrapegraph-doc.onrender.com/

💻 使用方法

您可以使用 SmartScraper 类通过提示从网站提取信息。

SmartScraper 类是一个直接图实现，使用网页爬取管道中最常见的节点。有关更多信息，请参阅文档。

情况 1：使用 Ollama 提取信息

记得单独在 Ollama 上下载模型！

from scrapegraphai.graphs import SmartScraperGraph  
  
graph_config = {  
    "llm": {  
        "model": "ollama/mistral",  
        "temperature": 0,  
        "format": "json",  # Ollama 需要显式指定格式  
        "base_url": "http://localhost:11434",  # 设置 Ollama URL  
    },  
    "embeddings": {  
        "model": "ollama/nomic-embed-text",  
        "base_url": "http://localhost:11434",  # 设置 Ollama URL  
    }  
}  
  
smart_scraper_graph = SmartScraperGraph(  
    prompt="List me all the articles",  
    # 也可以使用已下载的 HTML 代码的字符串  
    source="https://perinim.github.io/projects",  
    config=graph_config  
)  
  
result = smart_scraper_graph.run()  
print(result)

情况 2：使用 Docker 提取信息

注意：在使用本地模型之前，请记得创建 docker 容器！

    docker-compose up -d  
    docker exec -it ollama ollama pull stablelm-zephyr

您可以使用 Ollama 上可用的模型或您自己的模型，而不是 stablelm-zephyr

from scrapegraphai.graphs import SmartScraperGraph  
  
graph_config = {  
    "llm": {  
        "model": "ollama/mistral",  
        "temperature": 0,  
        "format": "json",  # Ollama 需要显式指定格式  
        # "model_tokens": 2000, # 设置上下文长度任意  
    },  
}  
  
smart_scraper_graph = SmartScraperGraph(  
    prompt="List me all the articles",  
    # 也可以使用已下载的 HTML 代码的字符串  
    source="https://perinim.github.io/projects",    
    config=graph_config  
)  
  
result = smart_scraper_graph.run()  
print(result)

情况 3：使用 Openai 模型提取信息

from scrapegraphai.graphs import SmartScraperGraph  
OPENAI_API_KEY = "YOUR_API_KEY"  
  
graph_config = {  
    "llm": {  
        "api_key": OPENAI_API_KEY,  
        "model": "gpt-3.5-turbo",  
    },  
}  
  
smart_scraper_graph = SmartScraperGraph(  
    prompt="List me all the articles",  
    # 也可以使用已下载的 HTML 代码的字符串  
    source="https://perinim.github.io/projects",  
    config=graph_config  
)  
  
result = smart_scraper_graph.run()  
print(result)

情况 4：使用 Groq 提取信息

from scrapegraphai.graphs import SmartScraperGraph  
from scrapegraphai.utils import prettify_exec_info  
  
groq_key = os.getenv("GROQ_APIKEY")  
  
graph_config = {  
    "llm": {  
        "model": "groq/gemma-7b-it",  
        "api_key": groq_key,  
        "temperature": 0  
    },  
    "embeddings": {  
  
  
        "model": "ollama/nomic-embed-text",  
        "temperature": 0,  
        "base_url": "http://localhost:11434",   
    },  
    "headless": False  
}  
  
smart_scraper_graph = SmartScraperGraph(  
    prompt="List me all the projects with their description and the author.",  
    source="https://perinim.github.io/projects",  
    config=graph_config  
)  
  
result = smart_scraper_graph.run()  
print(result)

情况 5：使用 Azure 提取信息

from langchain_openai import AzureChatOpenAI  
from langchain_openai import AzureOpenAIEmbeddings  
  
lm_model_instance = AzureChatOpenAI(  
    openai_api_version=os.environ["AZURE_OPENAI_API_VERSION"],  
    azure_deployment=os.environ["AZURE_OPENAI_CHAT_DEPLOYMENT_NAME"]  
)  
  
embedder_model_instance = AzureOpenAIEmbeddings(  
    azure_deployment=os.environ["AZURE_OPENAI_EMBEDDINGS_DEPLOYMENT_NAME"],  
    openai_api_version=os.environ["AZURE_OPENAI_API_VERSION"],  
)  
graph_config = {  
    "llm": {"model_instance": llm_model_instance},  
    "embeddings": {"model_instance": embedder_model_instance}  
}  
  
smart_scraper_graph = SmartScraperGraph(  
    prompt="""List me all the events, with the following fields: company_name, event_name, event_start_date, event_start_time,   
    event_end_date, event_end_time, location, event_mode, event_category,   
    third_party_redirect, no_of_days,   
    time_in_hours, hosted_or_attending, refreshments_type,   
    registration_available, registration_link""",  
    source="https://www.hmhco.com/event",  
    config=graph_config  
)

情况 6：使用 Gemini 提取信息

from scrapegraphai.graphs import SmartScraperGraph  
GOOGLE_APIKEY = "YOUR_API_KEY"  
  
# Define the configuration for the graph  
graph_config = {  
    "llm": {  
        "api_key": GOOGLE_APIKEY,  
        "model": "gemini-pro",  
    },  
}  
  
# Create the SmartScraperGraph instance  
smart_scraper_graph = SmartScraperGraph(  
    prompt="List me all the articles",  
    source="https://perinim.github.io/projects",  
    config=graph_config  
)  
  
result = smart_scraper_graph.run()  
print(result)

所有 3 个情况的输出将是一个包含提取信息的字典，例如：

{  
    'titles': [  
        'Rotary Pendulum RL'  
        ],  
    'descriptions': [  
        'Open Source project aimed at controlling a real life rotary pendulum using RL algorithms'  
        ]  
}

如何系统的去学习大模型LLM ？

作为一名热心肠的互联网老兵，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的 AI大模型资料 包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

😝有需要的小伙伴，可以V扫描下方二维码免费领取🆓

在这里插入图片描述

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

在这里插入图片描述

四、AI大模型商业化落地方案

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
  - L1.4.1 知识大模型
  - L1.4.2 生产大模型
  - L1.4.3 模型工程方法论
  - L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
  - L2.1.1 OpenAI API接口
  - L2.1.2 Python接口接入
  - L2.1.3 BOT工具类框架
  - L2.1.4 代码示例
- L2.2 Prompt框架
  - L2.2.1 什么是Prompt
  - L2.2.2 Prompt框架应用现状
  - L2.2.3 基于GPTAS的Prompt框架
  - L2.2.4 Prompt框架与Thought
  - L2.2.5 Prompt框架与提示词
- L2.3 流水线工程
  - L2.3.1 流水线工程的概念
  - L2.3.2 流水线工程的优点
  - L2.3.3 流水线工程的应用
- L2.4 总结与展望

阶段3：AI大模型应用架构实践

目标：深入理解AI大模型的应用架构，并能够进行私有化部署。
内容：
- L3.1 Agent模型框架
  - L3.1.1 Agent模型框架的设计理念
  - L3.1.2 Agent模型框架的核心组件
  - L3.1.3 Agent模型框架的实现细节
- L3.2 MetaGPT
  - L3.2.1 MetaGPT的基本概念
  - L3.2.2 MetaGPT的工作原理
  - L3.2.3 MetaGPT的应用场景
- L3.3 ChatGLM
  - L3.3.1 ChatGLM的特点
  - L3.3.2 ChatGLM的开发环境
  - L3.3.3 ChatGLM的使用示例
- L3.4 LLAMA
  - L3.4.1 LLAMA的特点
  - L3.4.2 LLAMA的开发环境
  - L3.4.3 LLAMA的使用示例
- L3.5 其他大模型介绍

阶段4：AI大模型私有化部署

目标：掌握多种AI大模型的私有化部署，包括多模态和特定领域模型。
内容：
- L4.1 模型私有化部署概述
- L4.2 模型私有化部署的关键技术
- L4.3 模型私有化部署的实施步骤
- L4.4 模型私有化部署的应用场景

学习计划：

阶段1：1-2个月，建立AI大模型的基础知识体系。
阶段2：2-3个月，专注于API应用开发能力的提升。
阶段3：3-4个月，深入实践AI大模型的应用架构和私有化部署。
阶段4：4-5个月，专注于高级模型的应用和部署。

这份完整版的大模型 LLM 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

😝有需要的小伙伴，可以Vx扫描下方二维码免费领取🆓

在这里插入图片描述

会AIGC的小孩

关注

25
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
当AI遇上爬虫：ScrapeGraphAI结合LLM实现前所未有的网页抓取效率，一言即搜！

🌟ScrapeGraphAI 是一个网络抓取Python 库，它使用 LLM 和直接图形逻辑为网站、文档和 XML文件创建抓取管道。只需说出您想要提取哪些信息，ScrapeGraphAI就会为你完成！在当今数据驱动的世界中，网络抓取已成为从广阔的互联网中收集信息的重要工具。然而，传统的网络抓取工具往往难以适应网站的动态特性，需要开发人员不断维护和更新。
复制链接

扫一扫