鹅厂也下场,文档解析的痛点是什么?

最近,文档解析赛道颇为火热,产品更新迭代频繁,与各类大模型上下游一样发展势头很劲。6月下旬,鹅厂也在多个产品上线了文档解析功能。

文档智能交互是企业、学术、个人工作中必不可少的一环,作为大模型应用的典型场景之一,它对准确、高效的文档解析工具有着长期需求。解析工具对RAG、知识库开发有着至关重要的影响,也因此受到开发者们的关心。

今天我们来聊聊文档解析的技术路线以及痛点。

对于简单的文档解析,langchain 和 llama_index 中集成了各种基于规则引擎的解析工具(如:解析pdf的pdfplumber,pyPDF2等)或者简单的开源的ocr工具(如:paddleocr),能够对多种文件类型进行解析。

鹅厂也下场,文档解析的痛点是什么?

对于复杂的文档解析,常基于深度学习的方法进行解析。

文档内容解析路径
智能文档(文本内容)技术路线

 

然而,对于通用文档解析而言还存在着一些挑战:

1.版式分析

版式分析

版面分析指的是对文档进行区域划分,通过bounding box定位其中的关键区域,如:文字、标题、表格、图片等。

版式分析的优势

  1. 通过大量标注的数据,准确的划分出文档关键区域。如:

    1. 文本区域:页眉、页脚、标题、段落、页码、脚注、图片标题、表格标题等

    2. 表格

    3. 公式

    4. 图片

  2. 能对复杂的版式进行区块识别

复杂版式

版式分析的缺点,目前基本都是通过目标检测的形式进行版式分析,因此其挑战也是伴随着特定场景的标注数据,尤其是通用场景的版式分析,难度巨大。

2. 表格识别与解析

表格识别与解析的难点一般如下:

  • 表格的多样性和复杂性:表格的形式多种多样,包括有线表、无线表和少线表,这使得检测和分割单元格变得复杂 。

  • 表格单元格的合并与拆分:某些表格中的单元格可能跨行或跨列,甚至跨页,需要准确识别这些合并的单元格并将其恢复成标准单元格 。

  • 表格内容的识别和解析:表格中可能包含图像、公式、符号等非文本内容,需要将它们转换成文本或保留格式 。

  • 表格结构的表示和输出:不同的应用场景可能需要不同的表格结构表示方式,如 HTML、JSON、CSV 等,需要将识别结果转换成适合目标应用的格式,并保留数据和样式信息。

 

 3.公式识别与解析

公式识别类型

数学公式识别与解析是一个技术挑战性很高的领域,主要难点包括:

  • 公式结构的复杂性:数学公式往往包含复杂的嵌套结构,这些结构的识别需要算法能够准确理解公式的层次关系,例如多层的分数、根号等 。

  • 形近字的识别难度:在手写识别中,相似形状的字符如大写X和小写x,大写Z和数字2,希腊字母γ和字母r等容易混淆,增加了识别的难度 。

  • 非常规符号的识别:比赛中添加的非常规符号组合可能会与公式混淆,增加了识别的复杂度。

4.阅读顺序

由于文档布局的复杂性,包括多栏、嵌套表格、不规则的文本框等,这增加了阅读顺序恢复的难度。

多列布局阅读顺序恢复

小结:以上文档解析的每个环节无论是数据标注、模型训练、实验,都需要投入巨大的成本和精细化的优化,在工业落地场景,在保证解析效果的同时,还需要关注文档的解析速度。尤其是OCR过程,文字密集型文档的解析速度影响特别大。

下期我们聊聊文档解析的测评工具,帮助大家选择更适合自己场景的解析产品。欢迎大家多多探讨!

  • 21
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值