PDF文件在线处理工具（侧重数理及论文）

CIb0la

已于 2024-07-11 09:19:14 修改

阅读量976

点赞数 6

文章标签：程序人生运维

于 2024-07-11 08:43:08 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bugsycrack/article/details/140340922

版权

因为频繁用到PDF文件，有时候需要编辑,有时候需要转成文字，需要OCR批量识别，有时候需要批量解析论文中的大量公式及表格，用手工截图毕竟太慢了，下面汇总一些常用的PDF解析工具，多数都引入了Ai辅助工具：

1、Doc2x（付费）
可以将 PDF 文件转换为 Markdown、LaTeX、DOCX
可以解析排版、数学公式、表格、图片、图表等，对包含表格和公式的文档处理效果较好，国内的不少大模型厂商在使用，中英文档处理效果比mathpix好。

体验地址：https://doc2x.noedgeai.com

2、gptpdf（开源）
只用293行代码，几乎完美地解析了排版、数学公式、表格、图片、图表等，上限是gpt-4o的能力，期待后续进步一步的迭代。

方法：
使用 PyMuPDF 库，对 PDF 进行解析出所有非文本区域，并做好标记
使用视觉大模型（如 GPT-4o）进行解析，得到markdown 文件

github：https://github.com/CosmosShadow/gptpdf

3、RAGFlow（开源）
RAGFlow是基于深度文档理解的开源 RAG（检索增强生成）引擎，为了解决幻觉问题，项目方在文档解析模块做了创新，采用了自创的deep document understanding方法

支持Word、幻灯片、Excel、txt、图像、扫描件、结构化数据、网页等复杂的非结构化数据解析，包含各种不同场景模版，比如发票、简历、财报等

github：https://github.com/infiniflow/ragflow

4、mathpix（据说claude数学能力强因为用了mathpix,付费）

可以解析文本、数学、化学、手写识别、表格、外语和完整PDF文档，输出LaTeX 、Markdown、Word等格式。
支持类似谷歌的搜索功能。

体验地址：https://mathpix.com

5、庖丁PDFlux（国产，但是付费）
提取 PDF / 图片中的表格和文字，AI 智能生成摘要/搜索/改写/翻译。

体验地址：https://pdflux.com

6、pix2text（开源）
支持多语言，可以识别图片中的版面、表格、图片、文字、数学公式等，输出Markdown 格式
也可以把整个 PDF 文件（PDF 可以是扫描图片或者其他任何格式）转换为 Markdown

体验地址：https://huggingface.co/spaces/breezedeus/Pix2Text-Demo

github：https://github.com/breezedeus/Pix2Text

7、TextIn
可以识别文档或图片中的文字信息，按常见阅读顺序进行还原。
支持标准的年报、文书、函件、合同等文档，兼容扫描文档和电子PDF文件。

体验地址：https://textin.com/experience/pdf_to_markdown

8、腾讯云文档识别（量小优先选用吧）
可将图片或PDF文件转换成Markdown格式文件，包括表格、公式、图片和文本等，并转换为阅读顺序，可将文档内容转换成阅读格式（其实很强大，微信拍照单页识别也可以）

体验地址：https://ocrdemo.cloud.tencent.com

9、marker（开源）
支持多语言多文档类型，针对书籍和科学论文做了优化。

github：https://github.com/VikParuchuri/marker

10、paddle（付费）
通用表格识别是飞桨特色的端到端表格识别系统，可精准预测论文、报告等文档中的表格位置和内容。

体验地址：https://aistudio.baidu.com/community/app/91661/webUI

博客等级

码龄10年

474
原创

2411
点赞

1887
收藏

1645
粉丝

关注

私信

热门文章

分类专栏

方法论 112篇
科技史 20篇
国产Llinux运维 41篇
树莓派 41篇
gentoo 6篇
crack 15篇
kali linux 26篇

展开全部收起

最新评论

在手机上用Termux找到自己公网IP的办法
2401_85085459: 查不了
在手机上用Termux找到自己公网IP的办法
2501_91527970: 怎么查别人的IP
Arm 将自己制造芯片
CIb0la: Inter进入多核时代后一直在挤牙膏，市场战略不清晰，在多核server领域节节败退，在桌面级应用领域也被amd轻松碾压，12代的CPU的多核效率异常不理想。而ARM进场对Intel的冲击要小于AMD的战略蚕食。ARM对自己生态的破坏才是实实在在的，三星、苹果等都是基于ARM的生产下游。AARM主要蚕食的是这部分市场。
Arm 将自己制造芯片
Invincible_008: 和英特尔抢市场
portapack-h2使能hackrf
CIb0la: 参见清华王康博士的论文和hackrfcn主页有详细的教程。Potapack只是一个方便离线使用过的上位机。

最新文章

2025

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。