论文信息
题目:Cluster-Learngene: Inheriting Adaptive Clusters for Vision Transformers
Cluster-Learngene: 继承自适应聚类的视觉Transformer模型
作者:Qiufeng Wang, Xu Yang, Fu Feng, Jing Wang, Xin Geng
论文创新点
- 自适应聚类:作者提出了一种自适应聚类方法,通过分析注意力头的密度特征,将祖先模型中的注意力头和位置前馈网络(FFN)进行聚类,形成learngene。
- 优先权重共享:为了初始化具有不同数量注意力头的子模型,作者引入了优先权重共享机制。该机制根据头中心所属聚类的大小进行排序,优先共享代表更多注意力头的中心,从而确保子模型的初始化不会导致性能下降。
- 可学习的参数变换:作者通过引入可学习的参数变换,