1. MLAttention介绍
(1). 多尺度卷积操作:MLAttention通过多尺度卷积操作来增强不同尺度的特征表达能力。采用了多种卷积核尺寸(例如5x5、1x7、7x1、1x11、11x1、1x21、21x1)的深度可分离卷积来捕捉不同感受野的特征。较小的卷积核擅长捕捉细节信息,而较大的卷积核则能够涵盖更大的上下文信息。这种多尺度的处理方式,确保了网络能够同时对细节和整体信息进行有效的建模。
(2). 多层次的特征融合:MLAttention模块中的多组卷积层会提取不同层次的特征,并通过逐步累加的方式将这些特征进行融合。不同层次的卷积特征通过叠加方式,不仅提高了对复杂特征的捕捉能力,还有效增强了对不同尺度目标的感知能力。这对于复杂场景下的图像特征提取,尤其是包含多尺度目标的场景,有着显著的优势。
(3). 线性注意力机制的引入:MLAttention结合了线性注意力机制,通过生成查询(Q)、键(K)、值(V)三组特征来进行图像局部和全局信息的交互。注意力机制可以通过自适应地学习特征之间的相关性,有效地突出关键区域的特征,同时抑制冗余或不重要的信息。在具体实现中,线性注意力通过Softmax计算注意力权重,然后通过加权求和的方式将重要特征进行增强,从而进一步提高了图像特征提取的准确性和鲁棒性。