4.5K Stars!为 RAG 而生的数据工程神器!!

▼最近直播超级多,预约保你有收获

 1

大模型 RAG 的难题是什么?  

RAG 或者 Fine-tuning 微调作为大模型的增强技术,最核心的技术在于如何把企业的私有数据清洗转换成知识,企业中能够第一时间拿到的私有数据,往往是异构的、数据质量参差不齐,通过数据工程把数据变成知识就不是一件很容易的事儿。

OmniParse 正是为此而生的利器!它将任何非结构化数据转换为结构化知识。

ee15007c17c8169597910d3655edcf89.png

Github 地址:https://github.com/adithya-s-k/omniparse

 2

OmniParse 有哪些核心功能?  

OmniParse是一个平台,能够将任何非结构化数据摄取并解析为结构化、可操作的数据,这些数据已针对大模型应用程序进行了优化。无论您正在处理文档、表格、图像、视频、音频文件还是网页,OmniParse 都会使您的数据变得干净、结构化,并为诸如 RAG、微调 等 AI 大模型应用程序做好准备。

OmniParse 平台核心特性如下所示:

✅ 完全本地化,无需外部 API
✅ 适配 T4 GPU
✅ 支持约20种文件类型
✅ 将文档、多媒体和网页转换为高质量的结构化 Markdown
✅ 表格提取、图像提取/加标注、音频/视频转录、网页爬虫
✅ 易于使用 Docke r和 Skypilot 进行部署
✅ Colab 友好
✅ 由 Gradio 驱动的交互式用户界面

OmniParse 目前支持以下的数据类型,主流的数据格式都提供了良好的支持。

7f992706f4c6d05d3660442c9836214e.png

 3

OmniParse 如何安装和使用? 

OmniParse 平台支持以下2种安装方式:

第一、通过源码直接安装

目前 OmniParse 源码安装仅适用于基于 Linux 的系统。这是由于某些依赖项和系统特定配置与 Windows 或 macOS 不兼容。

git clone <https://github.com/adithya-s-k/omniparse>
cd omniparse

创建虚拟环境

conda create --n omniparse-venv python=3.10
conda activate omniparse-venv

安装依赖项

poetry install
# or
pip install -e .
# or
pip install -r pyproject.toml

第二、通过 Docker 安装

也可以通过 Docker 来使用 OmniParse

docker build -t omniparse .
# if you are running on a gpu
docker run --gpus all -p 8000:8000 omniparse
# else
docker run -p 8000:8000 omniparse

第三、运行服务

#运行服务器:
python server.py --host 0.0.0.0 --port 8000 --documents --media --web


#--documents:加载所有帮助您解析和提取文档的模型(Surya OCR 系列模型和 Florence-2)。
#--media:加载 Whisper 模型来转录音频和视频文件。
#--web:设置 selenium 爬虫。

启动后会提供一个 API 服务,展示内容参考如下:

2d6fb1d2ebdb60f2ecec77c66d87b5ca.png

第四、执行案例

第一、以下是执行文档解析的例子,可以解析 PDF、PowerPoint 或 Word 文档。

#Curl 命令:
curl -X POST -F "file=@/path/to/document" <http://localhost:8000/parse_document>

de40e470d5743c0995f8b0b3a27128ba.png

第二、解析图像文件(PNG、JPEG、JPG、TIFF、WEBP)。

#Curl 命令:


curl -X POST -F "file=@/path/to/image.jpg" <http://localhost:8000/parse_media/image>

 4

总结 

OmniParse 旨在构建一个全面的数据摄取与解析平台,该平台能够处理包括文档、图像、音频、视频及 Web 内容在内的各类数据,并输出高度结构化、易于操作且专为 GenAI(大型语言模型)优化的数据。当前,该项目的核心理念展现出良好的实用性,尽管在实际应用中仍面临一些待完善的方面。例如,它在处理英语数据方面表现出色,但面对中文等语言时可能会遇到挑战;同时,对于 PDF 文件中的公式转换为 LaTeX 格式,也存在一定的难度。当然相信随着开源社区持续的更新,这些问题都会逐步解决。

为了帮助同学们彻底掌握大模型 RAG、微调、Agent 等应用的深层原理,在企业中的应用实践,今天我会开场直播和同学们深度剖析,请同学们点击以下预约按钮免费预约

5

加我微信

有很多不方便公开发公众号的我会直接分享在朋友圈欢迎你扫码加我个人微信来看👇

5305e285d1453a386bc31e4cf2891885.jpeg

⬇戳”阅读原文“,立即预约!

END

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
大模型+RAG(Retrieval-Augmented Generation)是一种结合了检索和生成的方法,用于实现数据采集。具体步骤如下: 1. 数据收集:首先需要收集大量的原始数据,可以是文本、图像、音频等形式的数据。这些数据可以从互联网、数据库、文档等多个渠道获取。 2. 数据预处理:对收集到的原始数据进行预处理,包括数据清洗、去重、标注等操作。这一步骤旨在提高数据的质量和准确性,为后续的模型训练做准备。 3. 模型训练:使用大模型进行训练,可以选择使用预训练的语言模型(如GPT)或自定义的模型。在训练过程中,可以采用生成式对抗网络(GAN)等方法来增强模型的生成能力。 4. 检索模块构建:为了提高生成结果的准确性和相关性,需要构建一个检索模块。该模块可以使用传统的信息检索技术,如倒排索引、向量检索等,也可以使用深度学习方法,如BERT、Dense Retrieval等。 5. 数据采集:利用构建好的检索模块,对用户提出的问题或需求进行检索,获取与之相关的数据。可以根据检索结果的相关性进行排序,选择最相关的数据进行生成。 6. 数据生成:基于检索到的数据,使用大模型进行生成。可以采用生成式模型,根据检索到的数据进行文本、图像等内容的生成。生成的结果可以根据需求进行进一步的处理和优化。 7. 结果评估:对生成的结果进行评估,可以使用人工评估或自动评估的方式。评估指标可以包括生成结果的准确性、流畅性、相关性等。 8. 迭代优化:根据评估结果,对模型和检索模块进行优化和调整。可以通过增加训练数据、调整模型参数、改进检索算法等方式来提升系统的性能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值