通用文档智能预训练模型LayoutLM及其应用

通用文档智能预训练模型LayoutLM及其应用

智能文档
分析表单和文档
创建智能搜索索引
自动化业务工作流程
在这里插入图片描述

图解(从你的所有内容中发现潜在的见解)

现实世界中的文档理解
在这里插入图片描述
图解(视觉效果丰富的文档)

文档理解任务
在这里插入图片描述
在这里插入图片描述
相关工作
文本和视觉信息的浅融合
结合预先训练的NLP或CV模型的输出
带标记样本的监督学习
文本和视觉信息的深度融合
对端到端文本和视觉信息进行预训练
用于预训练的大规模未标记数据集
一些贴有标签的样品进行微调
LayoutLM
为何将文本和布局联合训练
现有的研究主要集中在单模态信息或将语境文本嵌入与空间信息简单结合而不进行交互
在这里插入图片描述
文档在布局中的局部不变性
词语的相对位置与其语义表征高度相关
局部不变性
键-值对的布局
左右或自上而下的
表布局
网格/表格
标签数据不足和昂贵
在这里插入图片描述
建模目标
联合建模文本和布局信息:上下文文本嵌入+上下文空间信息

对未标记数据进行预训练,以利用局部不变性,更好地将布局信息与语义表示对齐。

LayoutLMv1 -> LayoutLMv2 -> LayoutXLM
Image

Layout
在这里插入图片描述
建模过程图
在这里插入图片描述
在这里插入图片描述

对layout进行自监督学习
带有掩码机制的的视觉语言模型(下图)
在这里插入图片描述

文档图片分类
在这里插入图片描述
预训练数据
在这里插入图片描述
图解(IIT-CDIP Test Collection 1.0上1100万的文档图片)

下游任务
格式解析
票据的解析
文档图像分类
形式理解

在这里插入图片描述
在这里插入图片描述

图解(实验结果)

票据解析
在这里插入图片描述
在这里插入图片描述

图解(实验结果)

文档图像分类
在这里插入图片描述
在这里插入图片描述

图解(实验结果)

LayoutLMv1 -> LayoutLMv2
Layout
在这里插入图片描述
LayoutMv2框架图
在这里插入图片描述

预训练模型
带掩码的视觉语言模型
Text-Image匹配
Text-Image对齐
在这里插入图片描述
在一些下游任务的结果
在这里插入图片描述

图解(语义实体识别的结果)在这里插入图片描述

图解(文档图像分类的结果)
在这里插入图片描述

图解(文档VQA结果)

LayoutLMv2 -> LayoutXLM
在这里插入图片描述
框架图
在这里插入图片描述
预训练语言的分布在这里插入图片描述
图解(30M文档的图片用来预训练LayoutXLM)
在这里插入图片描述
XFUND基准
8种语言,英语、汉语、日语、西班牙语、法语、意大利语、德语、葡萄牙语

每种语言有199个文档图像(没有重复模板)训练149个,测试50个。标签、头、键、值、其他

在这里插入图片描述
图解(特定语言的微调结果)

在这里插入图片描述
图解(zero-shot transfer 实验结果)
在这里插入图片描述

图解(多任务学习实验结果)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值