LayoutLMv2笔记（理论篇）

最新推荐文章于 2024-06-20 08:16:00 发布

炼丹小白师

最新推荐文章于 2024-06-20 08:16:00 发布

阅读量2.1k

点赞数 3

文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/qq_43241562/article/details/122402599

版权

LayoutLMV

先从LayoutLMV说起
其根源在于将bert的position embedding扩展到二维的序列上，把文本在文档中的位置建立为坐标，进入position embedding中将其编码，然后输入到transformer中，辅助下游任务。根据其上下文化的能力去建模。
缺陷：只是将layout和text做上下文化，没有将image结合到预训练中做上下文化。
其结构如下：
在这里插入图片描述

LayoutLMv2

对于今年4月份写文章的大佬CharlesWu123写的公式最为清晰这里直接引用一下啦！
在这里插入图片描述

最终的文本向量是三个向量部分之和。词向量表示词本身，一维位置向量表示字段的索引，片段向量用来区分不同的文本片段。则第 i 个文本向量表示为：
原文作者提出的model结构如下：
将三个模态组合成的信息输入到transformer中。
在这里插入图片描述

构建输入

原文中用resnet49作为图像编码器去编码图像信息（Image_encoder）
visual token + bert 512 token作为最大的序列长度。
针对语言部分时采取OCR部分获取token。
图像的位置信息直接用layout的位置去编码。
（补充：resnet49 输出为7*7）

transformer 改动

增加spatial-aware self-attention mechanism形式辅助模型对文档的token进行建模。

在这里插入图片描述
论文改进（根据年限）：
2017 带权求和方式，其weight就是去通过计算Q和K的相关程度。
2019 改进部分：根据token之间的根据相对位置重要性增加bias即红色部分那个
2020 改进部分：蓝色部分就是将token与token之间空间信息去让transformer自行感知。