LayoutLMv2笔记(理论篇)

LayoutLMV

先从LayoutLMV说起
其根源在于将bert的position embedding扩展到二维的序列上,把文本在文档中的位置建立为坐标,进入position embedding中将其编码,然后输入到transformer中,辅助下游任务。根据其上下文化的能力去建模。
缺陷:只是将layout和text做上下文化,没有将image结合到预训练中做上下文化。
其结构如下:
在这里插入图片描述

LayoutLMv2

对于今年4月份写文章的大佬CharlesWu123写的公式最为清晰这里直接引用一下啦!
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

最终的文本向量是三个向量部分之和。词向量表示词本身,一维位置向量表示字段的索引,片段向量用来区分不同的文本片段。则第 i 个文本向量表示为:
原文作者提出的model结构如下:
将三个模态组合成的信息输入到transformer中。
在这里插入图片描述

构建输入

原文中用resnet49作为图像编码器去编码图像信息(Image_encoder)
visual token + bert 512 token作为最大的序列长度。
针对语言部分时采取OCR部分获取token。
图像的位置信息直接用layout的位置去编码。
(补充:resnet49 输出为7*7)

transformer 改动

增加spatial-aware self-attention mechanism形式辅助模型对文档的token进行建模。

在这里插入图片描述
论文改进(根据年限):
2017 带权求和方式,其weight就是去通过计算Q和K的相关程度。
2019 改进部分:根据token之间的根据相对位置重要性增加bias即红色部分那个
2020 改进部分:蓝色部分就是将token与token之间空间信息去让transformer自行感知。

Multi-modal Pre-training Tasks

1.Masked Visual-Language Modeling

将图像语言建模(建模方法包含两点)
(1)根据文本布局建模
(2)根据语言进行建模

2.Text-Image Alignment

根据图像细粒度与文本对齐
根据在image中随机化选择文本行将其cover的方法
其实现方法是通过二分类的方法实现文本与图像的对齐关系。
用线性模型就可!

3. Text-Image Matching

将输入的pair(即图像与文本之间的对齐关系)做负采样,然后用CLS去预测其对齐关系是否匹配。

数据集采用 11million scanned document images from IIT-CDIP Test Collection 1.0

实体提取任务实验结果(Entity-level F1)在这里插入图片描述

在这里插入图片描述
base model 超过上一个Large model 这个我至今还没有合理的解释,我还在研究中(欢迎大佬们指点迷津!!!)
在使用的四个下游任务中,效果都很好,亲测有效!!!

如有遗漏错误之处,还望不吝赐教!
愿与诸君共勉!
不久之后会出代码篇教程!!!
在这里插入图片描述

Happy Birthday!!!
新的一岁,给自己的一份新礼物!

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

炼丹小白师

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值