通用文档智能预训练模型LayoutLM及其应用

Necther

于 2022-01-22 22:39:13 发布

阅读量1.1k

点赞数

分类专栏：自然语言处理文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011983997/article/details/122645187

版权

自然语言处理专栏收录该内容

69 篇文章 6 订阅

订阅专栏

通用文档智能预训练模型LayoutLM及其应用

智能文档
分析表单和文档
创建智能搜索索引
自动化业务工作流程
在这里插入图片描述

图解（从你的所有内容中发现潜在的见解）

现实世界中的文档理解
在这里插入图片描述
图解（视觉效果丰富的文档）

文档理解任务
在这里插入图片描述

相关工作
文本和视觉信息的浅融合
结合预先训练的NLP或CV模型的输出
带标记样本的监督学习
文本和视觉信息的深度融合
对端到端文本和视觉信息进行预训练
用于预训练的大规模未标记数据集
一些贴有标签的样品进行微调
LayoutLM
为何将文本和布局联合训练
现有的研究主要集中在单模态信息或将语境文本嵌入与空间信息简单结合而不进行交互
在这里插入图片描述
文档在布局中的局部不变性
词语的相对位置与其语义表征高度相关
局部不变性
键-值对的布局
左右或自上而下的
表布局
网格/表格
标签数据不足和昂贵

建模目标
联合建模文本和布局信息:上下文文本嵌入+上下文空间信息

对未标记数据进行预训练，以利用局部不变性，更好地将布局信息与语义表示对齐。

LayoutLMv1 -> LayoutLMv2 -> LayoutXLM
Image

Layout
在这里插入图片描述
建模过程图

对layout进行自监督学习
带有掩码机制的的视觉语言模型（下图）
在这里插入图片描述

文档图片分类
在这里插入图片描述
预训练数据

图解（IIT-CDIP Test Collection 1.0上1100万的文档图片）

下游任务
格式解析
票据的解析
文档图像分类
形式理解

在这里插入图片描述

图解（实验结果）

票据解析
在这里插入图片描述

图解（实验结果）

文档图像分类
在这里插入图片描述

图解（实验结果）

LayoutLMv1 -> LayoutLMv2
Layout
在这里插入图片描述
LayoutMv2框架图

预训练模型
带掩码的视觉语言模型
Text-Image匹配
Text-Image对齐
在这里插入图片描述
在一些下游任务的结果

图解（语义实体识别的结果）在这里插入图片描述

图解（文档图像分类的结果）
在这里插入图片描述

图解（文档VQA结果）

LayoutLMv2 -> LayoutXLM
在这里插入图片描述
框架图

预训练语言的分布
图解（30M文档的图片用来预训练LayoutXLM）

XFUND基准
8种语言，英语、汉语、日语、西班牙语、法语、意大利语、德语、葡萄牙语

每种语言有199个文档图像(没有重复模板)训练149个，测试50个。标签、头、键、值、其他

在这里插入图片描述
图解（特定语言的微调结果）

在这里插入图片描述
图解（zero-shot transfer 实验结果）

图解（多任务学习实验结果）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。