多模态文档LayoutLM版面智能理解技术演进-纪传俊

本文介绍了办公文档智能分析的关键技术LayoutLM模型,从BERT出发,详细阐述了LayoutLM 1.0、2.0到v3的演进过程,展示了如何结合文本、图像和布局信息进行预训练,提高文档理解任务的准确性。在多个数据集上的实验表明,LayoutLM系列模型在表单理解、票据识别、文档分类和问答任务上取得了显著的提升。达观数据基于此技术进行了自研优化,处理复杂文档场景,提升了行业应用效果。
摘要由CSDN通过智能技术生成

多模态算法兴起的背景

办公文档是各行各业最基础也是最重要的信息载体,不管是金融、政务、制造业、零售行业等等,各种类型的文档都是业务流转过程中必不可少的数字资料。以银行信贷为例,一笔信贷业务在贷前贷中到贷后全流程中,需要涉及财报、银行流水、贸易合同、发票、尽职调查报告、审批意见书、会议纪要等等材料,材料的格式和内容均差异很大,但都是针对同一笔信贷业务、从不同角色视角、不同业务角度的情况描述。每一种材料都承载了重要的业务数据,对这些材料进行全面而准确的价值提取,并汇集所有材料实现全流程数据穿透,是前述信贷业务目前急需解决的问题。如何提取海量历史文档中的关键要素和数据,构建数据资产,也是当前各个行业做数字化智能化转型的重要课题。
 

图1 银行信贷业务所需各类材料及关键要素 

其中最核心的技术难点,是从原始的办公文档中发现和提取有价值的内容,也是数据资产构建的前置条件。达观数据长期致力于办公文档的智能化处理,即通过对文档格式的全面解析、对文档内容的全面理解,从而提取出核心业务信息。与传统的纯文本语义理解问题不一样的是,办公文档除了文字以外还有大量的表格、图片都包含了重要数据,甚至文档的排版、布局、分栏、文字格式等等,也隐含了一段文字中是否存在关键要素,以及要素重要性大小的信息。


因此对于办公文档的智能分析,需要综合考虑文字、图像、排版布局等信息,单纯处理文字信息的方法很难取得令人满意的效果。近几年兴起的多模态算法在这一方向上展现出了很好的效果,微软亚洲研究院的研究人员所提出的通用文档理解预训练模型LayoutLM模型就是具有代表性的方法,模型目前是开源的并且已经发布到3.0版本,各个版本都在一系列文档理解任务重取得了领先的效果。


总体而言,LayoutLM算法将文本信息和视觉信息做了深层次的融合,实现了多模态端到端预训练,利用大量无标注的文档数据进行文本、布局版面的联合学习,可以学习到文档中的局部不变形信息,避免了传统方法需要大量标注数据的问题。LayoutLM一经推出就在多个下游的文档理解任务上取得了领先的结果。本文将重点围绕LayoutLM的核心算法及其演进过程做介绍,并介绍达观基于多模态技术的优化调整,以解决实际场景中真实办公文档的各类数据问题。

  BERT  

介绍LayoutLM之前,需要先介绍一下BERT,两个模型具有较大相关性。在NLP领域,BERT是近几年最具有突破性的一项技术,于2018年10月由Google AI研究院提出的一种预训练模型,刷新了NLP领域多项评测任务的SOTA,引起了各行业的广泛关注。Bert采用了Transformer架构中的Encoder模块,使得Bert有更好的特征提取能力和语言表征能力。BERT结构有预训练与微调两步。在Bert的预训练中引入两大核心任务:1、遮蔽语言模型(MLM)随机遮挡输入token,训练目标是恢复被遮盖的token  2、下一句预测(NSP)一个二分类任务,其将一对语句作为输入,判断其是否为连贯的语句。

经过预训练的Bert模型增加了它的上下文信息的提取能力和捕捉句子间的语义联系。由于有好的预训练模型,在做特定的下游任务时,通过简单的fine-tune的方式就能取得不错的效果。

LayoutLM 1.0

LayoutLM 1.0很大程度上借鉴了BERT模型,包括模型的预训练和微调。在NLP的任务中通常是只利用了文本信息,在办公文档中有丰富的视觉信息可以被编码到预训练模型中以及作为模型的特征输入。

LayoutLM1.0以Bert架构作为主干,增加了布局版面的特征:

  1. 2-D位置特征;与建立序列中单词位置模型的位置嵌入不同,二维位置嵌入的目的是建立文档中的相对空间位置。

  2. 图像特征:为了使用文档的图像特征并将图像特征与文字对齐,在模型中添加一个图像嵌入向量层。采用了Faster R-CNN提取特征。

LayoutLM 1.0的模型结构如下图所示:

图2  LayoutLM 1.0模型结构 

其中,2-D位置特征编码了文档中的空间位置关系(其中2-d位置信息来自于OCR识别的结果,并且会把所有的坐标点标准化到0-1000)。一个文档可视为一个坐标系统&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值