LayoutLMV
先从LayoutLMV说起
其根源在于将bert的position embedding扩展到二维的序列上,把文本在文档中的位置建立为坐标,进入position embedding中将其编码,然后输入到transformer中,辅助下游任务。根据其上下文化的能力去建模。
缺陷:只是将layout和text做上下文化,没有将image结合到预训练中做上下文化。
其结构如下:
LayoutLMv2
对于今年4月份写文章的大佬CharlesWu123写的公式最为清晰这里直接引用一下啦!
最终的文本向量是三个向量部分之和。词向量表示词本身,一维位置向量表示字段的索引,片段向量用来区分不同的文本片段。则第 i 个文本向量表示为:
原文作者提出的model结构如下:
将三个模态组合成的信息输入到transformer中。
构建输入
原文中用resnet49作为图像编码器去编码图像信息(Image_encoder)
visual token + bert 512 token作为最大的序列长度。
针对语言部分时采取OCR部分获取token。
图像的位置信息直接用layout的位置去编码。
(补充:resnet49 输出为7*7)
transformer 改动
增加spatial-aware self-attention mechanism形式辅助模型对文档的token进行建模。
论文改进(根据年限):
2017 带权求和方式,其weight就是去通过计算Q和K的相关程度。
2019 改进部分:根据token之间的根据相对位置重要性增加bias即红色部分那个
2020 改进部分:蓝色部分就是将token与token之间空间信息去让transformer自行感知。
Multi-modal Pre-training Tasks
1.Masked Visual-Language Modeling
将图像语言建模(建模方法包含两点)
(1)根据文本布局建模
(2)根据语言进行建模
2.Text-Image Alignment
根据图像细粒度与文本对齐
根据在image中随机化选择文本行将其cover的方法
其实现方法是通过二分类的方法实现文本与图像的对齐关系。
用线性模型就可!
3. Text-Image Matching
将输入的pair(即图像与文本之间的对齐关系)做负采样,然后用CLS去预测其对齐关系是否匹配。
数据集采用 11million scanned document images from IIT-CDIP Test Collection 1.0
实体提取任务实验结果(Entity-level F1)
在这里插入图片描述
base model 超过上一个Large model 这个我至今还没有合理的解释,我还在研究中(欢迎大佬们指点迷津!!!)
在使用的四个下游任务中,效果都很好,亲测有效!!!
如有遗漏错误之处,还望不吝赐教!
愿与诸君共勉!
不久之后会出代码篇教程!!!
Happy Birthday!!!
新的一岁,给自己的一份新礼物!