Dify PDF文件解析

介绍

Dify 是一款开源的大语言模型(LLM) 应用开发平台,它融合了后端即服务(Backend as Service)和 LLMOps 的理念,使开发者可以快速搭建生产级的生成式 AI 应用。即使你是非技术人员,也能参与到 AI 应用的定义和数据运营过程中。


欢迎使用 Dify | Dify

但是在构建dify知识库的时候发现,dify对pdf文件的解析能力很差,它使用的是PyMuPDF包,这使得dify不能解析纯图片类的pdf文件,也不能保存pdf文档中的图片。

目前上海人工智能实验室(上海AI实验室)大模型数据基座OpenDataLab团队开源了全新的智能数据提取工具——MinerU,拥有十分强大的pdf解析能力,它通过yolo v10识别pdf中的文字、图片、公式、表格等区域,并用特定的模型对不同的区域进行分析,达到了十分惊人的效果。

我使用他们开源的PDF-Extract-Kit工具箱,将dify-rag-pdf_extract部分进行优化,最终使dify拥有了识别纯图片类pdf的能力。

部署

同dify的部署一样,你可以选择进行本地部署或docker部署,这里演示docker部署,本地部署和官方的流程差不多,能本地部署的基本都是大佬级别,所以就不予演示了。

docker部署

以linux系统为例:

1. docker部署需要让docker使用gpu,所以需要在主机上下载nvidia-docker。

 distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
 curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
 curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
 sudo apt-get update
 sudo apt-get install nvidia-container-toolkit
 sudo apt-get install nvidia-docker2
 service docker restart
 sudo systemctl daemon-reload
 sudo systemctl restart docker

2. 克隆dify项目,由于dify官方并没有同意我的PR所以需要在我的github上克隆

git clone https://github.com/fengsvkn/dify.git​​​​​​

3. 切换到test/pdf_extract分支

git checkout -b test/pdf_extract origin/test/pdf_extract

git pull origin test/pdf_extract

4.在dify的同级目录下下载模型权重
模型权重下载 — PDF-Extract-Kit 0.1.0 文档
注意这里要先下载git-lfs

git clone https://www.modelscope.cn/opendatalab/pdf-extract-kit-1.0.git

 然后将pdf-extract-kit-1.0文件夹重命名为pdf_extract_models
之前的一个小bug,不想重新构建docker镜像了见谅

5.下载docker镜像并导入

链接: https://pan.baidu.com/s/1rcEstv0-6bGwVYcXbo5Y3w?pwd=gi12 提取码: gi12 
--来自百度网盘超级会员v5的分享
 

docker load -i docker-api.tar

6.进入dify/docker目录

cp .env.example .env

在.env中修改一下端口(如果有冲突的话)

docker compose up -d

在浏览器输入127.0.0.1就可以使用了。

内容概要:本文档详细介绍了Dify应用开发平台的部署流程。Dify作为一个结合了BaaS与LLMOps理念的开源大语言模型应用开发平台,主要面向开发者及希望参与AI应用构建的人群。部署前,需保证系统已装好docker和git,这是用于拉取项目代码和运行环境的基础工具。具体部署操作分为几步执行:首先是新建dify文件夹作为存放项目的主目录,在此之下利用git指令从指定的GitHub地址克隆整个Dify源代码下来;其次是在获取的项目根路径找到docker相关脚本所在位置,依次复制配置示例环境变量,借助docker compose来一键启动所有的组件。一旦发现控制台提示共有九个容器均处于健康运转状态便标志着Dify部署完成。部署完毕后,访问浏览器输入特定URL即可打开初始设置页面录入管理后台账号基本信息,从而开始Dify之旅。 适用人群:对快速创建基于大语言模型的生成式AI应用感兴趣的初学者或者有一定编程经验想要深入定制或拓展该平台功能的技术爱好者。无论是IT专业人员还是非技术人员都可以从中受益并且参与到应用程序定义及其相关的数据运营管理工作中。 使用场景及目标:适用于那些想要在本地环境中试用或是进行自定义开发的企业内部研究团队或者个人开发者。其目的在于使用户能够脱离复杂的云服务搭建出一套完整的AI解决方案原型系统以便进行演示和技术验证活动。 其他说明:部署指南提供了详细的命令行操作指导,每一步都有明确指示。需要注意的是部署过程中可能涉及到较长时间等待,特别是第一次拉起全部服务时。另外还提到若无法通过命令获取代码可选择直接下载预先打包好的版本。对于网络条件不是很好或者是遇到了技术难题的情况下不失为一种折衷方法。同时提醒初次使用的用户务必牢记创建超级管理员账户所需的认证凭证资料。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值