❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
🚀 快速阅读
- OmniParse 是一个数据解析平台,能够将任何非结构化数据转换为结构化、可操作的数据,优化适用于大型语言模型(LLM)应用。
- 支持约 20 种文件类型,包括文档、图片、视频、音频和网页内容。
- 提供本地化处理、数据转换、表格提取、图像字幕、音视频转录和网页抓取等功能。
正文(附运行示例)
OmniParse 是什么
OmniParse 是一个数据解析平台,能够将任何非结构化数据转换为结构化、可操作的数据,优化适用于生成式人工智能(Generative AI,简称 GenAI)应用。OmniParse 支持约 20 种文件类型,包括文档、表格、图像、视频、音频和网页内容,提供表格提取、图像字幕、音视频转录等功能。该平台基于 Docker 和 Skypilot 轻松部署,用 Gradio 支持的交互式 UI。
OmniParse 的主要功能
- 本地化处理:OmniParse 完全在本地运行,不需要依赖外部 API,确保数据处理的隐私性和安全性。
- 多文件类型支持:支持约 20 种文件类型,包括文档(如 .doc, .docx, .pdf 等)、图片、视频、音频和网页内容。
- 数据转换:将非结构化数据转换为高质量的结构化 Markdown 格式,便于后续处理和分析。
- 表格提取:能从文档中提取表格数据,并转换为结构化格式。
- 图像提取/字幕:从图像中提取文本信息,为图像生成字幕。
- 音视频转录:将音频和视频文件转录成文本。
- 网页抓取:从网页中抓取内容,将其结构化。
OmniParse 的技术原理
- 自然语言处理(NLP):用 NLP 技术理解和处理文本数据,包括语言模型和文本分析工具。
- 光学字符识别(OCR):对于图像和扫描文档,用 OCR 技术将视觉文本转换为机器可读文本。
- 深度学习模型:基于深度学习模型提高数据解析的准确性,特别是在处理复杂或非标准格式的数据时。
- 数据清洗和标准化:对提取的数据进行清洗和标准化,确保数据的一致性和可用性。
如何运行 OmniParse
安装
- 克隆仓库:
git clone https://github.com/adithya-s-k/omniparse
cd omniparse
- 创建虚拟环境:
conda create -n omniparse-venv python=3.10
conda activate omniparse-venv
- 安装依赖:
poetry install
# 或
pip install -e .
# 或
pip install -r pyproject.toml
使用 Docker 运行
- 拉取 Docker 镜像:
docker pull savatar101/omniparse:0.1
- 运行 Docker 容器:
docker run --gpus all -p 8000:8000 savatar101/omniparse:0.1
# 如果不使用 GPU
docker run -p 8000:8000 savatar101/omniparse:0.1
启动服务器
python server.py --host 0.0.0.0 --port 8000 --documents --media --web
--documents
:加载用于解析和摄入文档的模型(Surya OCR 系列模型和 Florence-2)。--media
:加载 Whisper 模型以转录音频和视频文件。--web
:设置 Selenium 爬虫。
下载模型
python download.py --documents --media --web
--documents
:加载用于解析和摄入文档的模型(Surya OCR 系列模型和 Florence-2)。--media
:加载 Whisper 模型以转录音频和视频文件。--web
:设置 Selenium 爬虫。
示例代码
以下是一个简单的 Python 脚本示例,展示如何使用 OmniParse 解析 PDF 文件:
import requests
def parse_pdf(file_path):
url = "http://localhost:8000/parse_document/pdf"
files = {"file": open(file_path, "rb")}
response = requests.post(url, files=files)
return response.json()
# 解析 PDF 文件
file_path = "/path/to/document.pdf"
parsed_data = parse_pdf(file_path)
print(parsed_data)
解释
url
:API 端点,用于解析 PDF 文件。files
:包含文件对象的字典。response
:发送 POST 请求并接收响应。response.json()
:将响应内容转换为 JSON 格式。
资源
❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦