【NeurIPS2024】注意力迁移对视觉Transformer的惊人有效性研究

cdb069d08c15e4296c8fad8d77d7caf7.png

来源:专知
本文约1000字,建议阅读5分钟
我们通过提出一种简单的方法——注意力迁移(attention transfer)。

348951e7fc1bfddf11a0b4929ec6839b.png

传统观点认为,通过预训练视觉Transformer(ViT)可以学习有用的表示,从而提升下游任务的性能。但这是真的吗?我们对这一问题进行了研究,发现预训练过程中学到的特征和表示并不是必不可少的。令人惊讶的是,仅利用预训练中的注意力模式(即指导信息在不同token之间的流动方式),就足以让模型从零开始学习高质量特征,并在下游任务中取得可比的性能。

我们通过提出一种简单的方法——注意力迁移(attention transfer),验证了这一点。在这种方法中,仅从预训练的教师ViT中将注意力模式迁移到学生模型,迁移方式可以是直接复制或蒸馏注意力图。由于注意力迁移允许学生模型自行学习特征,将其与经过微调的教师模型进行集成还能进一步提高ImageNet上的准确率。

我们系统性地研究了注意力图充分性的各种方面,包括在分布转移(distribution shift)环境下的表现,在这些环境中,注意力迁移性能不如微调。我们希望这一探索能为预训练的作用提供更深入的理解,同时为微调的标准实践提供一个有用的替代方案。复现我们结果的代码可在https://github.com/alexlioralexli/attention-transfer获得。

7c3c8441492273c48b2c47ec4c5375c1.png

关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。

2ebc07541a93159e4430d24b11e3355c.png

新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值