thepi.pe 开源项目教程
1. 项目介绍
thepi.pe 是一个强大的 API,旨在从各种来源(如 PDF、URL、文档、幻灯片等)中提取 Markdown 和图像,并准备用于多模态大型语言模型(LLMs)。该项目支持多种文件类型和数据源,能够进行多模态数据抓取和结构化数据提取。
主要功能
- Markdown 和图像提取:从任何文档或网页中提取 Markdown、表格和图像。
- 结构化数据提取:从任何文档或网页中提取复杂的结构化数据。
- 多模态抓取:支持视频、音频和图像源的多模态抓取。
- AI 原生文件类型检测:自动检测文件类型并进行布局分析。
2. 项目快速启动
安装
使用 pip 安装
pip install thepipe-api
获取 API 密钥
- 注册并获取 API 密钥。
- 设置环境变量
THEPIPE_API_KEY
为你的 API 密钥。
示例代码
from thepipe.scraper import scrape_file
from thepipe.core import chunks_to_messages
from openai import OpenAI
# 抓取干净的 Markdown 块
chunks = scrape_file(filepath="paper.pdf", ai_extraction=False)
# 使用抓取的块调用 LLM
client = OpenAI()
response = client.chat.completions.create(
model="gpt-4o",
messages=chunks_to_messages(chunks)
)
3. 应用案例和最佳实践
案例 1:从 PDF 中提取数据并生成报告
- 场景:从学术论文中提取关键数据并生成摘要报告。
- 步骤:
- 使用
scrape_file
从 PDF 中提取 Markdown 和图像。 - 将提取的数据传递给 LLM 生成摘要报告。
- 使用
案例 2:从网页中提取内容并进行分析
- 场景:从新闻网站中提取文章内容并进行情感分析。
- 步骤:
- 使用
scrape_url
从网页中提取 Markdown 和图像。 - 将提取的内容传递给 LLM 进行情感分析。
- 使用
4. 典型生态项目
生态项目 1:GPT-4o
- 介绍:GPT-4o 是一个多模态大型语言模型,能够处理文本和图像输入。
- 集成:thepi.pe 可以直接与 GPT-4o 集成,提供多模态数据输入。
生态项目 2:ChromaDB
- 介绍:ChromaDB 是一个向量数据库,用于存储和检索嵌入向量。
- 集成:thepi.pe 提取的数据可以转换为 ChromaDB 的格式,便于存储和检索。
通过以上模块,您可以快速了解并开始使用 thepi.pe 项目。