vit transformer中的cls_token

1.源码

# timm.model.vision_transformer
def forward_head(self, x, pre_logits: bool = False):
        '''
        # self.global_pool == 'avg'则取所有token的均值作为一个类别的表征
        # self.global_pool == 'token'则取第一个cls_token作为一个类别的表征
        '''
        if self.global_pool:  # [bs,token,dim] -> [bs,dim] 经过gap
            x = x[:, self.num_tokens:].mean(
                dim=1) if self.global_pool == 'avg' else x[:, 0]  
        x = self.fc_norm(x)  # bs, dim=768 -> bs, class_num
        return x if pre_logits else self.head(x)

2.说明

假设我们将原始图像切分成共9个小图像块,最终的输入序列长度却是10,也就是说我们这里人为的增加了一个向量进行输入,我们通常将人为增加的这个向量称为 Class Token。

我们可以想象,如果没有这个向量,也就是将9个向量(1~9)输入 Transformer 结构中进行编码,我们最终会得到9个编码向量,可对于图像分类任务而言,我们应该选择哪个输出向量进行后续分类呢?

方案一,即vit的方案:ViT算法提出了一个可学习的嵌入向量 Class Token( 向量0),将它与9个向量一起输入到 Transformer 结构中,输出10个编码向量,然后用这个 Class Token 进行分类预测。即,基于添加的cls_token执行类别预测,位置在所有token的第一个位置token[0],见编码中的x[:,0]

方案二,取除了cls_token之外的所有token的均值作为类别特征表示,即编码中的x[:, self.num_tokens:].mean(dim=1)

在这里插入图片描述

 3.思考

根据自注意机制,每个patch token一定程度上聚合了全局信息,但是主要是自身特征。ViT论文还使用了所有token取平均的方式,这意味每个patch对预测的贡献相同,似乎不太合理?。实际上,这样做的效果基本和引入cls_token差不多。

参考:



 vit 中的 cls_token 与 position_embed 理解_mingqian_chu的博客-CSDN博客_cls token

ViT为何引入cls_token_gltangwq的博客-CSDN博客_cls token

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值