DropKey for Vision Transformer【浅读 / 即插即用】

最新推荐文章于 2024-08-24 14:18:58 发布

幽殇默

最新推荐文章于 2024-08-24 14:18:58 发布

阅读量501

点赞数 4

分类专栏：论文阅读文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bettle_king/article/details/136665695

版权

论文阅读专栏收录该内容

66 篇文章 5 订阅

订阅专栏

论文地址

摘要

本文重点分析和改进了VIT自关注层的dropout技术，这一技术很重要，但却被以往的研究所忽视。我们特别针对三个核心问题进行了研究:第一，在自我关注层中应该减少什么?与以往文献中放弃注意权值不同，本文提出将放弃操作提前到注意力矩阵计算之前，并将Key设置为放弃单元，从而提出了一种新颖的dropout-before-softmax方案。从理论上验证了该方案既保留了注意权值的正则性特征，又保留了注意权值的概率特征，减轻了对特定模式的过拟合问题，增强了模型全局捕获重要信息的能力;第二，如何安排连续层的落差比?与利用所有层的恒定跌落率相反，我们提出了一个新的递减调度，它沿着自关注层的堆栈逐渐降低跌落率。实验验证了该方法可以避免低级特征的过拟合和高级语义的缺失，从而提高了模型训练的鲁棒性和稳定性;第三，是否需要像CNN那样进行结构化的dropout操作?我们尝试了基于补丁的块版本的dropout操作，发现这个对CNN有用的技巧对于ViT来说并不必要。在对上述三个问题进行探索的基础上，我们提出了一种新的DropKey方法，该方法以Key为掉落单位，利用递减调度来降低掉落率，从总体上提高了vit。综合实验证明了DropKey在各种ViT架构下的有效性。

这篇文章主要解决了VIT的过拟合问题，提出了一种DropKey而不是传统的Drop。
在这里插入图片描述

个人觉得可以用在Vit方面或者基于Vit的一些工作上试一试。

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
DropKey for Vision Transformer【浅读 / 即插即用】

本文重点分析和改进了VIT自关注层的dropout技术，这一技术很重要，但却被以往的研究所忽视。我们特别针对三个核心问题进行了研究:第一，在自我关注层中应该减少什么?与以往文献中放弃注意权值不同，本文提出将放弃操作提前到注意力矩阵计算之前，并将Key设置为放弃单元，从而提出了一种新颖的dropout-before-softmax方案。从理论上验证了该方案既保留了注意权值的正则性特征，又保留了注意权值的概率特征，减轻了对特定模式的过拟合问题，增强了模型全局捕获重要信息的能力;第二，如何安排连续层的落差比?
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。