无痛接入PDF-Extract-Kit：最强PDF文档解析项目

写代码的中青年

已于 2024-07-19 17:32:00 修改

阅读量1.9k

点赞数 6

分类专栏： AI应用开发文章标签： pdf 人工智能 python 算法

于 2024-07-19 15:08:38 首次发布

本文链接：https://blog.csdn.net/qq_43128256/article/details/140548645

版权

AI应用开发专栏收录该内容

42 篇文章

订阅专栏

AI应用开发相关目录

本专栏包括AI应用开发相关内容分享，包括不限于AI算法部署实施细节、AI应用后端分析服务相关概念及开发技巧、AI应用后端应用服务相关概念及开发技巧、AI应用前端实现路径及开发技巧
适用于具备一定算法及Python使用基础的人群

python使用API实现word文档翻译
yolo-world：”目标检测届大模型“
爬虫进阶：多线程爬虫
python使用modbustcp协议与PLC进行简单通信
ChatTTS：开源语音合成项目
sqlite性能考量及使用（附可视化操作软件）
拓扑数据的关键点识别算法
python脚本将视频抽帧为图像数据集
图文RAG组件：360LayoutAnalysis中文论文及研报图像分析
无痛接入PDF-Extract-Kit：最强PDF文档解析项目

之前在该方面分享过项目：

https://blog.csdn.net/qq_43128256/article/details/139684985

简单介绍一下：
由于文档类型的多样性，现有开源的布局检测和公式检测很难处理多样性的PDF文档，为此我们内容采集多样性数据进行标注和训练，使得在各类文档上取得精准的检测效果，细节参考布局检测和公式检测部分。对于公式识别，UniMERNet方法可以媲美商业软件，在各种类型公式识别上均匀很高的质量。对于OCR，我们采用PaddleOCR，对中英文OCR效果不错。

在这里插入图片描述
经测试，该项目精度远超360LayoutAnalysis：

在这里插入图片描述

Linux安装教程

conda create -n pipeline python=3.10

pip install -r requirements.txt

pip install --extra-index-url https://miropsota.github.io/torch_packages_builder detectron2==0.6+pt2.3.1cu121

最后一句指令若链接超时可自行下载whl文件至本地安装：

https://objects.githubusercontent.kkgithub.com/github-production-release-asset-2e65be/711258496/4e35e966-c82d-4b43-a2ae-7815f1aab85d?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=releaseassetproduction%2F20240719%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20240719T075017Z&X-Amz-Expires=300&X-Amz-Signature=125a5866679c6156e0776dbc48a78d974888875654414c33bc9e8cb13ac0635d&X-Amz-SignedHeaders=host&actor_id=0&key_id=0&repo_id=711258496&response-content-disposition=attachment%3B%20filename%3Ddetectron2-0.6%2Bpt2.3.1cu121-cp310-cp310-linux_x86_64.whl&response-content-type=application%2Foctet-stream

安装完环境后，可能会遇到一些版本冲突导致版本变更，如果遇到了版本相关的报错，可以尝试下面的命令重新安装指定版本的库。

pip install pillow==8.4.0

除了版本冲突外，可能还会遇到torch无法调用的错误，可以先把下面的库卸载，然后重新安装cuda12和cudnn。

pip uninstall nvidia-cusparse-cu12

再外，若是缺少模型权重文件，使用git来从魔搭上拉取

git clone https://www.modelscope.cn/wanderkid/PDF-Extract-Kit.git

获取后将models文件替换即可：
在这里插入图片描述

运行：

python pdf_extract.py --pdf data/pdfs/ocr_1.pdf

当然其结果为json数据。

json数据解析：
参考https://kkgithub.com/opendatalab/MinerU
按教程安装之后，使用命令行

magic-pdf pdf-command --pdf "pdf_path" --model "model_json_path

即可解析

效果：
在这里插入图片描述

python pdf_extract.py --pdf /home/super/lyq/PDF-Extract-Kit/test.pdf

在这里插入图片描述

使用后处理项目

pip install magic-pdf[full-cpu]

构建如下文件：

在这里插入图片描述
cp /home/super/lyq/PDF-Extract-Kit/magic-pdf.json ~/magic-pdf.json
撰写后执行如下指令，需修改的部分是/home/super/lyq/PDF-Extract-Kit/magic-pdf.json，改为自己的json文件路径即可

文件名称：magic-pdf.json
temp-output-dir为自定义的结果输出路径
models-dir为部署PDF-Extract-Kit的模型路径

运行：

 magic-pdf pdf-command --pdf "/home/super/lyq/PDF-Extract-Kit/test.pdf" --inside_model true

在这里插入图片描述