PDF 中图表的解析探究

engchina

于 2024-07-11 09:05:32 发布

阅读量414

点赞数 7

分类专栏： LINUX 文章标签： pdf pdf_parser unstructured gptpdf rag ragflow 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/engchina/article/details/140340728

版权

LINUX 专栏收录该内容

457 篇文章 59 订阅

订阅专栏

PDF 中图表的解析探究

0. 引言
1. 开源方案探究

0. 引言

一直以来，对文档中的图片和表格处理都非常有挑战性。这篇文章记录一下最近工作上在这块的探究。图表分为图片和表格，这篇文章主要记录了对表格的探究。还有，我个人主要做日本项目，探究时主要是以日语为主。

1. 开源方案探究

RAGFlow出品的Deepdoc

面向中文，有一个开源方案非常不错，RAGFlow出品的Deepdoc，它的项目中有多个对不同文档的多个文档解析器，其中就有面向pdf的pdf_parser。

测试了一下日文的识别能力，结果并不理想，也解析了一部分代码，代码中有很多处理都是面向中文的。

所以，RAGFlow出品的Deepdoc并不适合日文的处理。

在这里插入图片描述
LangChain出品的PyMuPDFLoader

简单来说，就是读取文档中文字，无法保留文章中表格的信息。

NVIDIA出品的multimodal

没有key，测试不了。简单解析了下架构和代码，还是有很多参考性的。

在这里插入图片描述

unstructured项目

这个项目很有意思，使用partition函数，可以自动解释很多格式的文档，也包括pdf。

解析了部分代码后，发现这个项目有对pdf文章中表格的处理，也可以把pdf中表格数据转换成markdown和html，效果上也达到60-70分左右。

gptpdf项目

这个项目是将pdf文档的每一页都存成一张图片，并且通过画红框，将不同的区域区分出来，然后让多模态模型进行解析，表格时，返回markdown格式。

如果使用gpt-4o或者claude的话，效果很不错，即使token消耗比较大。

使用多模态模型处理这种表格数据，对token的消耗非常大。

在这里插入图片描述

综上所述，现在还没有完美方案，接下来，就尝试自己做一套吧。
自己做时，发现有很多细节需要考虑，

如果表格跨页了怎么处理
跨页后的表格是否有表头
跨页后的表格是否和上一页是同一行
等等

把基础的功能实现后，先试着突破了一下跨页问题，大部分问题已经基本解决。截图如下，

先写到这吧，后续继续探索。

Reference & Thanks:

关注

7
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
PDF 中图表的解析探究

PDF 中图表的解析探究
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。