鹅厂也下场，文档解析的痛点是什么？

最新推荐文章于 2024-08-03 23:50:41 发布

好你个耿鬼

最新推荐文章于 2024-08-03 23:50:41 发布

阅读量828

点赞数 21

文章标签： pdf 人工智能 AIGC

本文链接：https://blog.csdn.net/2401_85965094/article/details/140666953

版权

最近，文档解析赛道颇为火热，产品更新迭代频繁，与各类大模型上下游一样发展势头很劲。6月下旬，鹅厂也在多个产品上线了文档解析功能。

文档智能交互是企业、学术、个人工作中必不可少的一环，作为大模型应用的典型场景之一，它对准确、高效的文档解析工具有着长期需求。解析工具对RAG、知识库开发有着至关重要的影响，也因此受到开发者们的关心。

今天我们来聊聊文档解析的技术路线以及痛点。

对于简单的文档解析，langchain 和 llama_index 中集成了各种基于规则引擎的解析工具（如：解析pdf的pdfplumber，pyPDF2等）或者简单的开源的ocr工具（如：paddleocr），能够对多种文件类型进行解析。

对于复杂的文档解析,常基于深度学习的方法进行解析。

然而，对于通用文档解析而言还存在着一些挑战：

1.版式分析

版面分析指的是对文档进行区域划分，通过bounding box定位其中的关键区域，如：文字、标题、表格、图片等。

版式分析的优势：

通过大量标注的数据，准确的划分出文档关键区域。如：
1. 文本区域：页眉、页脚、标题、段落、页码、脚注、图片标题、表格标题等
2. 表格
3. 公式
4. 图片
能对复杂的版式进行区块识别

版式分析的缺点，目前基本都是通过目标检测的形式进行版式分析，因此其挑战也是伴随着特定场景的标注数据，尤其是通用场景的版式分析，难度巨大。

2. 表格识别与解析

表格识别与解析的难点一般如下：

表格的多样性和复杂性：表格的形式多种多样，包括有线表、无线表和少线表，这使得检测和分割单元格变得复杂。
表格单元格的合并与拆分：某些表格中的单元格可能跨行或跨列，甚至跨页，需要准确识别这些合并的单元格并将其恢复成标准单元格。
表格内容的识别和解析：表格中可能包含图像、公式、符号等非文本内容，需要将它们转换成文本或保留格式。
表格结构的表示和输出：不同的应用场景可能需要不同的表格结构表示方式，如 HTML、JSON、CSV 等，需要将识别结果转换成适合目标应用的格式，并保留数据和样式信息。

3.公式识别与解析

数学公式识别与解析是一个技术挑战性很高的领域，主要难点包括：

4.阅读顺序

由于文档布局的复杂性，包括多栏、嵌套表格、不规则的文本框等，这增加了阅读顺序恢复的难度。

小结：以上文档解析的每个环节无论是数据标注、模型训练、实验，都需要投入巨大的成本和精细化的优化，在工业落地场景，在保证解析效果的同时，还需要关注文档的解析速度。尤其是OCR过程，文字密集型文档的解析速度影响特别大。

下期我们聊聊文档解析的测评工具，帮助大家选择更适合自己场景的解析产品。欢迎大家多多探讨！

关注