无痛接入PDF-Extract-Kit:最强PDF文档解析项目

AI应用开发相关目录

本专栏包括AI应用开发相关内容分享,包括不限于AI算法部署实施细节、AI应用后端分析服务相关概念及开发技巧、AI应用后端应用服务相关概念及开发技巧、AI应用前端实现路径及开发技巧
适用于具备一定算法及Python使用基础的人群

  1. python使用API实现word文档翻译
  2. yolo-world:”目标检测届大模型“
  3. 爬虫进阶:多线程爬虫
  4. python使用modbustcp协议与PLC进行简单通信
  5. ChatTTS:开源语音合成项目
  6. sqlite性能考量及使用(附可视化操作软件)
  7. 拓扑数据的关键点识别算法
  8. python脚本将视频抽帧为图像数据集
  9. 图文RAG组件:360LayoutAnalysis中文论文及研报图像分析
  10. 无痛接入PDF-Extract-Kit:最强PDF文档解析项目


之前在该方面分享过项目:

https://blog.csdn.net/qq_43128256/article/details/139684985

简单介绍一下:
由于文档类型的多样性,现有开源的布局检测和公式检测很难处理多样性的PDF文档,为此我们内容采集多样性数据进行标注和训练,使得在各类文档上取得精准的检测效果,细节参考布局检测和公式检测部分。对于公式识别,UniMERNet方法可以媲美商业软件,在各种类型公式识别上均匀很高的质量。对于OCR,我们采用PaddleOCR,对中英文OCR效果不错。

在这里插入图片描述
经测试,该项目精度远超360LayoutAnalysis:

在这里插入图片描述

Linux安装教程

conda create -n pipeline python=3.10

pip install -r requirements.txt

pip install --extra-index-url https://miropsota.github.io/torch_packages_builder detectron2==0.6+pt2.3.1cu121

最后一句指令若链接超时可自行下载whl文件至本地安装:

https://objects.githubusercontent.kkgithub.com/github-production-release-asset-2e65be/711258496/4e35e966-c82d-4b43-a2ae-7815f1aab85d?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=releaseassetproduction%2F20240719%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20240719T075017Z&X-Amz-Expires=300&X-Amz-Signature=125a5866679c6156e0776dbc48a78d974888875654414c33bc9e8cb13ac0635d&X-Amz-SignedHeaders=host&actor_id=0&key_id=0&repo_id=711258496&response-content-disposition=attachment%3B%20filename%3Ddetectron2-0.6%2Bpt2.3.1cu121-cp310-cp310-linux_x86_64.whl&response-content-type=application%2Foctet-stream

安装完环境后,可能会遇到一些版本冲突导致版本变更,如果遇到了版本相关的报错,可以尝试下面的命令重新安装指定版本的库。

pip install pillow==8.4.0

除了版本冲突外,可能还会遇到torch无法调用的错误,可以先把下面的库卸载,然后重新安装cuda12和cudnn。

pip uninstall nvidia-cusparse-cu12

再外,若是缺少模型权重文件,使用git来从魔搭上拉取

git clone https://www.modelscope.cn/wanderkid/PDF-Extract-Kit.git

获取后将models文件替换即可:
在这里插入图片描述

运行:

python pdf_extract.py --pdf data/pdfs/ocr_1.pdf

当然其结果为json数据。

json数据解析:
参考https://kkgithub.com/opendatalab/MinerU
按教程安装之后,使用命令行

magic-pdf pdf-command --pdf "pdf_path" --model "model_json_path

即可解析

效果:
在这里插入图片描述

python pdf_extract.py --pdf /home/super/lyq/PDF-Extract-Kit/test.pdf

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

使用后处理项目

pip install magic-pdf[full-cpu]

构建如下文件:

在这里插入图片描述
cp /home/super/lyq/PDF-Extract-Kit/magic-pdf.json ~/magic-pdf.json
撰写后执行如下指令,需修改的部分是/home/super/lyq/PDF-Extract-Kit/magic-pdf.json,改为自己的json文件路径即可

文件名称:magic-pdf.json
temp-output-dir为自定义的结果输出路径
models-dir为部署PDF-Extract-Kit的模型路径

运行:

 magic-pdf pdf-command --pdf "/home/super/lyq/PDF-Extract-Kit/test.pdf" --inside_model true

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

福安德信息科技

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值