vit transformer中的cls_token

最新推荐文章于 2024-08-03 10:43:34 发布

TBYourHero

最新推荐文章于 2024-08-03 10:43:34 发布

阅读量6.3k

点赞数 5

分类专栏：深度学习文章标签： transformer 人工智能深度学习

本文链接：https://blog.csdn.net/weixin_41803874/article/details/125729668

版权

深度学习专栏收录该内容

181 篇文章 20 订阅

订阅专栏

1.源码

# timm.model.vision_transformer
def forward_head(self, x, pre_logits: bool = False):
        '''
        # self.global_pool == 'avg'则取所有token的均值作为一个类别的表征
        # self.global_pool == 'token'则取第一个cls_token作为一个类别的表征
        '''
        if self.global_pool:  # [bs,token,dim] -> [bs,dim] 经过gap
            x = x[:, self.num_tokens:].mean(
                dim=1) if self.global_pool == 'avg' else x[:, 0]  
        x = self.fc_norm(x)  # bs, dim=768 -> bs, class_num
        return x if pre_logits else self.head(x)

2.说明

假设我们将原始图像切分成共9个小图像块，最终的输入序列长度却是10，也就是说我们这里人为的增加了一个向量进行输入，我们通常将人为增加的这个向量称为 Class Token。

我们可以想象，如果没有这个向量，也就是将9个向量（1~9）输入 Transformer 结构中进行编码，我们最终会得到9个编码向量，可对于图像分类任务而言，我们应该选择哪个输出向量进行后续分类呢？

方案一，即vit的方案：ViT算法提出了一个可学习的嵌入向量 Class Token( 向量0)，将它与9个向量一起输入到 Transformer 结构中，输出10个编码向量，然后用这个 Class Token 进行分类预测。即，基于添加的cls_token执行类别预测，位置在所有token的第一个位置token[0]，见编码中的x[:,0]

方案二，取除了cls_token之外的所有token的均值作为类别特征表示，即编码中的x[:, self.num_tokens:].mean(dim=1)

在这里插入图片描述