ViT为何引入cls_token

最新推荐文章于 2023-05-04 10:55:44 发布

gltangwq

最新推荐文章于 2023-05-04 10:55:44 发布

阅读量5.5k

点赞数 9

分类专栏：深度学习文章标签：深度学习 transformer 计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gltangwq/article/details/124950935

版权

深度学习专栏收录该内容

8 篇文章 1 订阅

订阅专栏

Vision Transformer在一些任务上超越了CNN，得益于全局信息的聚合。在ViT论文中，作者引入了一个cls_token作为分类特征。

如果没有cls_token，我们使用哪个patch token做分类呢？根据自注意机制，每个patch token一定程度上聚合了全局信息，但是主要是自身特征。ViT论文还使用了所有token取平均的方式，这意味每个patch对预测的贡献相同，似乎不太合理。实际上，这样做的效果基本和引入cls_token差不多。

cls_token的作用

cls_token与图像无关。它是随机生成的，不基于图像内容，因此可以避免对sequence中某个特定token的偏向性。
cls_token 对所有其他token上的信息做汇聚（全局特征聚合），cls_token（第0个token）使用固定的位置编码能够避免输出受到位置编码的干扰。
采用attention机制来做全局特征聚合而言表达能力比token取平均的方式更强。因为采用attention机制来做特征聚合，能够根据query和key之间的关系来自适应地调整特征聚合的权重，而采用求平均的方式的权重是相同的。

关注

9
点赞
踩
22

收藏

觉得还不错? 一键收藏
2
评论
ViT为何引入cls_token

Vision Transformer在一些任务上超越了CNN，得益于全局信息的聚合。在ViT论文中，作者引入了一个cls_token作为分类特征。如果没有cls_token，我们使用哪个patch token做分类呢？根据自注意机制，每个patch token一定程度上聚合了全局信息，但是主要是自身特征。ViT论文还使用了所有token取平均的方式，这意味每个patch对预测的贡献相同，似乎不太合理。实际上，这样做的效果基本和引入cls_token差不多。cls_token的作用cls_token与
复制链接

扫一扫

专栏目录

gltangwq CSDN认证博客专家 CSDN认证企业博客

码龄7年

44: 原创

11万+: 周排名

129万+: 总排名

15万+: 访问

: 等级

1191: 积分

15: 粉丝

75: 获赞

34: 评论

313: 收藏

私信

关注

热门文章

分类专栏

期刊会议 1篇
医学 1篇
latex 5篇
pytorch 6篇
VS 1篇
文章阅读 1篇
小样本学习
bash 3篇
数学 4篇
docker 1篇
ubuntu 8篇
深度学习 8篇
python 16篇
git 1篇
markdown

最新评论

ubuntu latex缺少包的解决方案
勤奋的喵喵: 最后一行的命令中应该是install
pytoch 使用float64训练
詠遠_: 可以调用模型的父类Module中的type方法，例如model.type(torch.float64) # 将网络模型model的参数和缓冲区强制转换为torch.float64类型，这样就可以训练torch.float64类型的数据了，还可以指定其他类型。另外还有一些强制转换为某一种类型的方法：float（）、double（）、half（）、bfloat16（）
pytoch 使用float64训练
LANOR233: 你好，现在pytorch的nn.linear模组好像只能输入类型为tensorFloat32（原因应该是全连接层计算返回的权重与偏置都是float32的，否则就会弹出type不一致的错误）。请问这个有什么办法可以将参数精度调整为float64吗？
ViT为何引入cls_token
shams_feizhu: 全局信息，用来做分类任务
ViT为何引入cls_token
非庭kisaki: class token的作用是啥？

大家在看

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。