OmniParse:AI 数据解析平台,提取和解析任何非结构化数据

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. OmniParse 是一个数据解析平台,能够将任何非结构化数据转换为结构化、可操作的数据,优化适用于大型语言模型(LLM)应用。
  2. 支持约 20 种文件类型,包括文档、图片、视频、音频和网页内容。
  3. 提供本地化处理、数据转换、表格提取、图像字幕、音视频转录和网页抓取等功能。

正文(附运行示例)

OmniParse 是什么

在这里插入图片描述

OmniParse 是一个数据解析平台,能够将任何非结构化数据转换为结构化、可操作的数据,优化适用于生成式人工智能(Generative AI,简称 GenAI)应用。OmniParse 支持约 20 种文件类型,包括文档、表格、图像、视频、音频和网页内容,提供表格提取、图像字幕、音视频转录等功能。该平台基于 Docker 和 Skypilot 轻松部署,用 Gradio 支持的交互式 UI。

OmniParse 的主要功能

  • 本地化处理:OmniParse 完全在本地运行,不需要依赖外部 API,确保数据处理的隐私性和安全性。
  • 多文件类型支持:支持约 20 种文件类型,包括文档(如 .doc, .docx, .pdf 等)、图片、视频、音频和网页内容。
  • 数据转换:将非结构化数据转换为高质量的结构化 Markdown 格式,便于后续处理和分析。
  • 表格提取:能从文档中提取表格数据,并转换为结构化格式。
  • 图像提取/字幕:从图像中提取文本信息,为图像生成字幕。
  • 音视频转录:将音频和视频文件转录成文本。
  • 网页抓取:从网页中抓取内容,将其结构化。

OmniParse 的技术原理

  • 自然语言处理(NLP):用 NLP 技术理解和处理文本数据,包括语言模型和文本分析工具。
  • 光学字符识别(OCR):对于图像和扫描文档,用 OCR 技术将视觉文本转换为机器可读文本。
  • 深度学习模型:基于深度学习模型提高数据解析的准确性,特别是在处理复杂或非标准格式的数据时。
  • 数据清洗和标准化:对提取的数据进行清洗和标准化,确保数据的一致性和可用性。

如何运行 OmniParse

安装

  1. 克隆仓库:
git clone https://github.com/adithya-s-k/omniparse
cd omniparse
  1. 创建虚拟环境:
conda create -n omniparse-venv python=3.10
conda activate omniparse-venv
  1. 安装依赖:
poetry install
# 或
pip install -e .
# 或
pip install -r pyproject.toml

使用 Docker 运行

  1. 拉取 Docker 镜像:
docker pull savatar101/omniparse:0.1
  1. 运行 Docker 容器:
docker run --gpus all -p 8000:8000 savatar101/omniparse:0.1
# 如果不使用 GPU
docker run -p 8000:8000 savatar101/omniparse:0.1

启动服务器

python server.py --host 0.0.0.0 --port 8000 --documents --media --web
  • --documents:加载用于解析和摄入文档的模型(Surya OCR 系列模型和 Florence-2)。
  • --media:加载 Whisper 模型以转录音频和视频文件。
  • --web:设置 Selenium 爬虫。

下载模型

python download.py --documents --media --web
  • --documents:加载用于解析和摄入文档的模型(Surya OCR 系列模型和 Florence-2)。
  • --media:加载 Whisper 模型以转录音频和视频文件。
  • --web:设置 Selenium 爬虫。

示例代码

以下是一个简单的 Python 脚本示例,展示如何使用 OmniParse 解析 PDF 文件:

import requests

def parse_pdf(file_path):
    url = "http://localhost:8000/parse_document/pdf"
    files = {"file": open(file_path, "rb")}
    response = requests.post(url, files=files)
    return response.json()

# 解析 PDF 文件
file_path = "/path/to/document.pdf"
parsed_data = parse_pdf(file_path)
print(parsed_data)

解释

  1. url:API 端点,用于解析 PDF 文件。
  2. files:包含文件对象的字典。
  3. response:发送 POST 请求并接收响应。
  4. response.json():将响应内容转换为 JSON 格式。

资源

  1. 项目官网:https://omniparse.cognitivelab.in/
  2. GitHub 仓库:https://github.com/adithya-s-k/omniparse

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值