简介:1.该教程提供大量的首发改进的方式,降低上手难度,多种结构改进,助力寻找创新点!
2.本篇文章对Pointnet++特征提取模块进行改进,加入
ConvolutionalGLU,提升性能。
3.专栏持续更新,紧随最新的研究内容。
目录
1.理论介绍
由于残差连接的深度退化效应,许多依赖堆叠层进行信息交换的高效视觉变形模型往往不能形成足够的信息混合,导致视觉感知不自然。为了解决这个问题,在本文中,我们提出了聚合注意力,这是一种基于仿生设计的令牌混合器,它模拟生物中央凹视觉和连续眼运动,同时使特征映射上的每个令牌具有全局感知。此外,我们结合了可学习的令牌,与传统的查询和键交互,这进一步多样化了亲和矩阵的生成,而不仅仅依赖于查询和键之间的相似性。我们的方法不依赖于堆叠进行信息交换,从而有效地避免了深度退化,实现了自然的视觉感知。
此外,我们提出了卷积GLU,一种通道混频器,它弥合了GLU和SE机制之间的差距,它使每个令牌基于其最近邻图像特征获得通道关注,增强了