2025深度学习发论文&模型涨点之——边界注意力
边界注意力模型在实验中表现出色,即使在边界信号非常弱或被噪声淹没的情况下,也能提供准确的结果。与现有方法相比,模型在较低噪音水平下表现更优,且在高噪音水平下与其他方法相媲美,同时运行速度更快。
我整理了一些边界注意力【论文+代码】合集,需要的同学公人人人号【AI创新工场】发525自取。
论文1:
[TNNLS] Boundary-Aware Axial Attention Network for High-Quality Pavement Crack Detection
用于高质量路面裂缝检测的边界感知轴向注意力网络
方法
边界感知轴向注意力网络(BAAN):提出了一种包含多个位置引导轴向注意力(PAA)模块的层次化编码器-解码器架构。
位置引导轴向注意力(PAA):将全二维注意力分解为沿水平和垂直方向的两个一维注意力,嵌入位置信息以捕获更精确的空间结构。
边界正则化模块(BRM):通过结合前景和背景信息来正则化不同空间区域之间的模糊细节。
边界细化损失(BRL):提出了一种新的损失函数,专注于边界像素,以解决前景-背景高度不平衡的问题。
创新点
PAA模块:通过分解注意力机制,显著降低了计算复杂度,同时扩展了模型的感受野,提升了裂缝检测的准确性。例如,在CrackTree260数据集上,BAAN的AP指标比DCNNs提升了4.1%。
BRM模块:通过显式地整合前景和背景信息,提升了对裂缝边界的识别精度,例如在CrackLS315数据集上,BAAN的ODS指标比其他方法提升了6.4%。
BRL损失:通过专注于边界像素,为模型训练提供了更细粒度的指导,提升了模型对裂缝边界的检测能力,例如在Stone331数据集上,BAAN的OIS指标比其他方法提升了9.0%。
论文2:
[WACV] MEGANet: Multi-Scale Edge-Guided Attention Network for Weak Boundary Polyp Segmentation
MEGANet:用于弱边界息肉分割的多尺度边缘引导注意力网络
方法
多尺度边缘引导注意力网络(MEGANet):提出了一种专门针对结肠镜图像中息肉分割的网络架构,包含编码器、解码器和边缘引导注意力模块(EGA)。
编码器-解码器架构:编码器负责从输入图像中捕获和抽象特征,解码器专注于显著特征的提取。
边缘引导注意力模块(EGA):利用拉普拉斯算子增强息肉边界,通过结合编码器的特征、解码器的预测特征和高频率特征来保留边缘信息。
拉普拉斯算子:用于提取高频率特征,尤其是边缘细节,以增强对弱边界的检测。
创新点
边缘信息保留:通过拉普拉斯算子提取高频率边缘信息,显著提升了弱边界息肉的分割精度,例如在ETIS数据集上,MEGANet(ResNet-34)的mDice指标比PraNet提升了4.1%。
多尺度特征融合:EGA模块在多个尺度上运行,有效解决了低级特征和高级特征之间的语义差距问题,提升了整体分割性能。
网络性能提升:在五个基准数据集上,MEGANet在mDice、mIoU等多个指标上均优于现有的SOTA方法,且网络参数量相对较少,例如在ClinicDB数据集上,MEGANet(Res2Net-50)的mDice达到93.8%,比MSNet提升了1.7%。
论文3:
Enhancing Partially Spoofed Audio Localization with Boundary-aware Attention Mechanism
通过边界感知注意力机制增强部分伪造音频定位
方法
边界感知注意力机制(BAM):提出了一种包含边界增强(BE)和边界帧注意力(BFA)两个核心模块的新方法。
边界增强模块(BE):通过帧内和帧间信息的组合,提取用于边界位置检测和真实性决策的判别性边界特征。
边界帧注意力模块(BFA):利用边界预测结果显式控制帧之间的特征交互,实现真实帧和伪造帧之间的有效区分。
预训练自监督学习模型:使用预训练的Wav2vec2或WavLM作为前端特征提取器,提升了对音频数据的表示能力。
创新点
BAM方法:首次尝试在单个CM系统中利用边界信息进行部分伪造音频定位,显著提升了定位性能,例如在PartialSpoof数据集上,BAM的EER指标达到了3.58%,比之前的最佳方法降低了2.35%。
BE模块:通过帧内和帧间特征的结合,提升了边界特征的判别能力,例如在边界检测任务中,BE模块的F1分数达到了92.25%,比仅使用帧间特征提升了0.48%。
BFA模块:通过边界预测结果显式控制帧间信息交互,进一步提升了帧级真实性决策的准确性,例如在定位任务中,BFA模块的F1分数达到了96.09%,比仅使用BE模块提升了0.08%。