ViT为何引入cls_token

Vision Transformer在一些任务上超越了CNN,得益于全局信息的聚合。在ViT论文中,作者引入了一个cls_token作为分类特征。

如果没有cls_token,我们使用哪个patch token做分类呢?根据自注意机制,每个patch token一定程度上聚合了全局信息,但是主要是自身特征。ViT论文还使用了所有token取平均的方式,这意味每个patch对预测的贡献相同,似乎不太合理。实际上,这样做的效果基本和引入cls_token差不多。

cls_token的作用

  • cls_token与图像无关。它是随机生成的,不基于图像内容,因此可以避免对sequence中某个特定token的偏向性。
  • cls_token 对所有其他token上的信息做汇聚(全局特征聚合),cls_token(第0个token)使用固定的位置编码能够避免输出受到位置编码的干扰。
  • 采用attention机制来做全局特征聚合而言表达能力比token取平均的方式更强。因为采用attention机制来做特征聚合,能够根据query和key之间的关系来自适应地调整特征聚合的权重,而采用求平均的方式的权重是相同的。
  • 9
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值