AI应用开发相关目录
本专栏包括AI应用开发相关内容分享,包括不限于AI算法部署实施细节、AI应用后端分析服务相关概念及开发技巧、AI应用后端应用服务相关概念及开发技巧、AI应用前端实现路径及开发技巧
适用于具备一定算法及Python使用基础的人群
- python使用API实现word文档翻译
- yolo-world:”目标检测届大模型“
- 爬虫进阶:多线程爬虫
- python使用modbustcp协议与PLC进行简单通信
- ChatTTS:开源语音合成项目
- sqlite性能考量及使用(附可视化操作软件)
- 拓扑数据的关键点识别算法
- python脚本将视频抽帧为图像数据集
- 图文RAG组件:360LayoutAnalysis中文论文及研报图像分析
- 无痛接入PDF-Extract-Kit:最强PDF文档解析项目
之前在该方面分享过项目:
https://blog.csdn.net/qq_43128256/article/details/139684985
简单介绍一下:
由于文档类型的多样性,现有开源的布局检测和公式检测很难处理多样性的PDF文档,为此我们内容采集多样性数据进行标注和训练,使得在各类文档上取得精准的检测效果,细节参考布局检测和公式检测部分。对于公式识别,UniMERNet方法可以媲美商业软件,在各种类型公式识别上均匀很高的质量。对于OCR,我们采用PaddleOCR,对中英文OCR效果不错。
经测试,该项目精度远超360LayoutAnalysis:
Linux安装教程
conda create -n pipeline python=3.10
pip install -r requirements.txt
pip install --extra-index-url https://miropsota.github.io/torch_packages_builder detectron2==0.6+pt2.3.1cu121
最后一句指令若链接超时可自行下载whl文件至本地安装:
https://objects.githubusercontent.kkgithub.com/github-production-release-asset-2e65be/711258496/4e35e966-c82d-4b43-a2ae-7815f1aab85d?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=releaseassetproduction%2F20240719%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20240719T075017Z&X-Amz-Expires=300&X-Amz-Signature=125a5866679c6156e0776dbc48a78d974888875654414c33bc9e8cb13ac0635d&X-Amz-SignedHeaders=host&actor_id=0&key_id=0&repo_id=711258496&response-content-disposition=attachment%3B%20filename%3Ddetectron2-0.6%2Bpt2.3.1cu121-cp310-cp310-linux_x86_64.whl&response-content-type=application%2Foctet-stream
安装完环境后,可能会遇到一些版本冲突导致版本变更,如果遇到了版本相关的报错,可以尝试下面的命令重新安装指定版本的库。
pip install pillow==8.4.0
除了版本冲突外,可能还会遇到torch无法调用的错误,可以先把下面的库卸载,然后重新安装cuda12和cudnn。
pip uninstall nvidia-cusparse-cu12
再外,若是缺少模型权重文件,使用git来从魔搭上拉取
git clone https://www.modelscope.cn/wanderkid/PDF-Extract-Kit.git
获取后将models文件替换即可:
运行:
python pdf_extract.py --pdf data/pdfs/ocr_1.pdf
当然其结果为json数据。
json数据解析:
参考https://kkgithub.com/opendatalab/MinerU
按教程安装之后,使用命令行
magic-pdf pdf-command --pdf "pdf_path" --model "model_json_path
即可解析
效果:
python pdf_extract.py --pdf /home/super/lyq/PDF-Extract-Kit/test.pdf
使用后处理项目
pip install magic-pdf[full-cpu]
构建如下文件:
cp /home/super/lyq/PDF-Extract-Kit/magic-pdf.json ~/magic-pdf.json
撰写后执行如下指令,需修改的部分是/home/super/lyq/PDF-Extract-Kit/magic-pdf.json
,改为自己的json文件路径即可
文件名称:magic-pdf.json
temp-output-dir为自定义的结果输出路径
models-dir为部署PDF-Extract-Kit的模型路径
运行:
magic-pdf pdf-command --pdf "/home/super/lyq/PDF-Extract-Kit/test.pdf" --inside_model true