图像分割7

GGTY9871

已于 2022-05-26 19:51:04 修改

阅读量173

点赞数

分类专栏：图像分割文章标签： transformer 深度学习计算机视觉

于 2022-05-26 19:47:31 首次发布

本文链接：https://blog.csdn.net/qq_41815658/article/details/124988324

版权

6 篇文章 0 订阅

订阅专栏

方法

将transformer与CNN融合

self-attention导致input变成 $n^2$ 级别（this does not scale to realistic input sizes？我这里是否可以理解为，输入规模太大以致于现实无法训练）

完全抛弃CNN
将图像分解成多个patches然后将形成的线性的嵌入序列作为输入输入倒Transformer中。

对输入图像按照2*2分解成patches，然后在顶层运用自注意力机制。（该机制来源于另一篇论文，本来存在的局限是在低分辨率的图像表现效果更好，改进以后可以用在中等分辨率照片处理）

在中等规模数据集上，表现比ResNet低了几个百分点。（CNN存在平移不变性和局部性的归纳偏置）
平移不变性：系统产生完全相同的响应（输出），不管它的输入是如何平移的
局部性：空间联系近大远小。

在较大规模数据集反而比ResNet高了几个百分点。

将分辨率为 $H * W$ ，通道为C的图片分割成分辨率为 $P * P$ 的通道为C的块，我们可以得到块数 $N=H*W/P^2$
Transformer在所有图层上使用恒定的特征向量D，因此将patch展平，并使用可训练的线性投影（全连接层）映射到D的大小。
同时额外增加一个 $x_{class}$ ，其本身不参与encoder当中，但是将会保存key，value作为预测所用（这里主要是因为没有用倒decoder）。
增加一个position嵌入来保留位置信息。
加入了多头注意力机制和多层感知机
Layernorm归一化
在更大规模的数据集合上进行训练，去掉 $X_{class}$
本实验是自监督的我们需要的是无监督的，不过可以参考

关注