【TNT】Transformer in Transformer

最新推荐文章于 2024-05-12 21:49:58 发布

zy_destiny

最新推荐文章于 2024-05-12 21:49:58 发布

阅读量740

点赞数 1

分类专栏： Transformer 文章标签： transformer 深度学习人工智能 TNT ViT

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38308388/article/details/121809897

版权

Transformer 专栏收录该内容

12 篇文章 1 订阅

订阅专栏

这是今年中科院计算机科学实验室、华为和澳门大学联合写的一篇文章，题目非常硬核，TNT，像是多么爆炸性的产出。话不多说，直接开始学习吧。

论文：https://arxiv.org/pdf/2103.00112.pdf

代码：https://github.com/huawei-noah/CV-Backbones

目录

2.1网络结构

2.2网络计算

2.3位置编码

3.1TNT on ImageNet

3.2图像分类任务

3.3目标检测任务

3.4语义分割任务

1.背景

Transformer是基于自注意机制的一种神经网络，他能表示不同特征图之间的关系。Transformer 作为一种新型的神经网络架构，通过注意力机制将输入编码为强大的特征表征，通常，Transformer是将输入图像分成几个分块，然后计算每个分块之间的关系，自然影像由于具有丰富的细节和颜色信息，所以复杂性较高，但是分块的颗粒不够精细，无法挖掘不同尺度和位置的物体特征，因此，本文提出一种新的高性能Transformer结构-TNT（Transformer In Transformer ）。

2.网络

2.1网络结构

为了增强特征表征能力，TNT首先将输入图像分成几个patch切片，类似于“视觉句子”，然后将每个“视觉句子”的patch切片再切分成几个切片，类似于“视觉单词”，TNT网络除了要提取传统transformer网络的“视觉句子”之间的注意力特征，还要挖掘“视觉单词”之间的参数。特别注意的是，计算“视觉单词”之间的注意力特征时采用共享网络参数机制，因此计算“视觉单词”之间的注意力特征的参数和FLOPS的增加量可以忽略不计。然后，这个“视觉单词”的特征会被合成到对应的“视觉句子”中，class token也会通过连接不同的head被用于各种视觉识别任务中，通过TNT模型，可以提取更细粒度的视觉信息，提供更多的特征细节。

2.2网络计算

假设输入影像为image，

1.第一步就是将image切片，切成n个P*P*3大小的切片，即：

其中 $X^{^{1}}$ 为其中一个视觉句子，将其再切片，得到 $x^{i,j}$ ，即视觉单词：

其中 $x^{i,j}$ 为第i个句子里的第j个单词.

2.第二步就是通过线性投影，将视觉单词转成单词序列，即 $y^{i,j}$ ：

3.通过正常的transformer操作计算每个视觉句子中视觉单词之间的特征，那么视觉单词之间的关系用下式来计算：

L代表第L个block，是堆叠block的总数。第一个block中的 $Y_{0}^{i}$ 就是第二步中的 $Y_{i}$

4.图像中所有的单词序列经过transformer之后被表示成：

它表示了所有视觉单词中任意两个单词之间的关系。

5.在视觉句子等级上，跟ViT一样，我们首先将视觉句子表示成句子序列：

其中 $Z_{class}$ 为class token，这些均被初始化为0

6.将之前计算的视觉单词的transformer结果叠加到视觉句子上，得到：

7.重复之前的transformer步骤，对视觉句子计算句子之间的关系，即：

在此基础上，TNT的输入和输出可以被表示成：

2.3位置编码

空间信息对图像识别来说是非常重要的因素，因此对 sentence embeddings 和word embeddings都添加了位置编码。上面的网络图中可以看到。

3.实验

3.1TNT on ImageNet

可视化特征图的结果如下图所示：

3.2图像分类任务

3.3目标检测任务

3.4语义分割任务

整理不易，欢迎一键三连！！！

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

zy_destiny 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。