全新Attention:边界注意力,能发TNNLS的idea!

边界注意力(Boundary Attention)是一种新型的注意力机制,主要用于从图像中检测和推断边界结构,包括边缘、角点、交叉点等。

我还整理出了相关的论文+开源代码,以下是精选部分论文

更多论文料可以关注AI科技探寻,发送:111  领取更多[论文+开源码】

论文1

标题:

Boundary-Aware Axial Attention Network for High-Quality Pavement Crack Detection

用于高质量路面裂缝检测的边界感知轴向注意力网络

方法:

  • 位置引导的轴向注意力模块(PAA):提出了一种将二维注意力分解为两个一维位置引导注意力的机制,分别沿水平和垂直方向计算,以降低计算复杂度并扩展模型的感受野。

  • 边界正则化模块(BRM):通过显式整合前景和背景信息,对不同空间区域之间的模糊细节进行正则化,以更准确地识别裂缝的边界。

  • 边界细化损失(BRL):提出了一种新的损失函数,专注于边界像素而非区域,以解决高度不平衡的前景-背景分割问题,为优化提供补充信息。

  • 层次化编码器-解码器架构:构建了一个包含多个PAA模块的层次化编码器-解码器网络结构,用于高效地学习裂缝的局部细节和全局上下文信息。

创新点:

  • PAA模块:通过将二维注意力分解为一维注意力,显著降低了计算复杂度,同时通过在查询、键和值中嵌入位置信息,提高了模型对裂缝空间结构的感知能力。

  • BRM模块:通过显式学习前景和背景之间的关系,显著提高了裂缝检测的准确性。

  • BRL损失:通过专注于边界像素,解决了传统像素级交叉熵损失在处理不平衡数据时的不足。使用BRL后,模型在边界区域的检测精度显著提高。

  • 整体性能提升:BAAN在多个裂缝检测数据集上均表现出色,例如在CrackTree260数据集上,ODS、OIS和AP指标分别达到了0.971、0.974和0.977,相比其他方法有显著提升。

    image.png

论文2

标题:

ABANet: Attention Boundary-Aware Network for image segmentation

ABANet:用于图像分割的注意力边界感知网络

法:

  • 注意力门控机制(AG):在跳跃连接中引入注意力门控模块,以增强网络对显著特征区域的学习能力,特别是在处理掩膜与非掩膜区域的边界时。

  • 混合损失函数:提出了一种包含焦点损失(Focal Loss)、SSIM损失和IoU损失的混合损失函数,用于在像素级、块级和地图级提供监督,以实现更准确的区域分割和边界预测。

  • 两阶段网络架构:设计了一个包含分割网络和细化网络的两阶段架构,其中分割网络负责初步分割掩膜区域,细化网络进一步优化掩膜边界。

  • 特征级注意力:选择特征级注意力而非空间级注意力,以更好地适应复杂的面部结构和轮廓,同时减少对空间变化的敏感性。

创新点:

  • 注意力门控机制(AG):通过在跳跃连接中引入AG,显著提高了分割精度。

  • 混合损失函数:通过结合焦点损失、SSIM损失和IoU损失,模型在训练过程中能够更好地处理不平衡的正负样本分布。使用混合损失后,IoU指标从91.262提升到93.814,F1分数从94.18提升到96.817。

  • 两阶段架构:通过分割网络和细化网络的结合,模型能够更精确地预测掩膜边界。

  • 整体性能提升:ABANet在MFSD数据集上的表现优于其他先进方法,例如在IoU、F1分数、精度和准确度等指标上分别达到了93.814、96.817、97.164和97.623,相比其他方法有显著提升。

image.png

论文3

标题:

ActionFormer: Localizing Moments of Actions with Transformers

ActionFormer:使用Transformer定位动作时刻

法:

  • Transformer架构:提出了一种基于Transformer的模型ActionFormer,用于单次检测视频中的动作实例并识别其类别,无需使用动作提议或依赖预定义的锚点窗口。

  • 多尺度特征表示:结合局部自注意力机制,从输入视频中提取多尺度特征金字塔,每个位置代表视频中的一个时刻,被视为动作候选。

  • 轻量级解码器:使用轻量级卷积解码器对特征金字塔进行分类和回归,预测每个时刻的动作类别和对应的边界距离。

创新点:

  • 单阶段无锚点设计:ActionFormer是首个基于Transformer的单阶段无锚点模型,直接在输入视频上进行动作定位和分类,无需复杂的提议生成和解码过程。

  • 局部自注意力机制:通过限制自注意力的范围为局部窗口,显著降低了计算复杂度,同时保持了对长距离依赖的建模能力。在ActivityNet 1.3数据集上,使用局部自注意力的模型平均mAP达到了36.6%,优于使用全局自注意力的模型。

  • 多尺度特征金字塔:设计了多尺度特征金字塔,能够捕捉不同时间尺度上的动作特征,提高了模型对动作边界的定位精度。在EPIC-Kitchens 100数据集上,该模型平均mAP达到了23.5%,比之前的最佳方法高出超过13.5个百分点。

  • 端到端训练:整个模型通过标准的分类和回归损失进行端到端训练,简化了训练过程,提高了模型的泛化能力。

image.png

论文4

标题:

Progressive Attention on Multi-Level Dense Difference Maps for Generic Event Boundary Detection

在多级密集差异图上进行渐进式注意力的通用事件边界检测

法:

  • 多级特征库:构建一个多级特征库,存储不同空间和时间尺度的特征,为多尺度差异计算做准备。

  • 密集差异图(DDM):提出密集差异图来全面表征运动模式,通过计算视频片段中每两帧之间的特征差异,获得更丰富的运动信息。

  • 渐进式注意力:在多级DDM上应用渐进式注意力机制,联合聚合外观和运动线索,提高对事件边界的判别能力。

创新点:

  • 密集差异图(DDM):与传统的光流或RGB差异相比,DDM能够提供更全面和密集的运动信息,显著提高了模型对事件边界的检测精度。在Kinetics-GEBD数据集上,使用DDM的模型在最严格的阈值(Rel.Dis.=0.05)下,F1分数从62.5%提升到76.4%,提高了13.9个百分点。

  • 多级特征融合:通过构建多级特征库,模型能够捕捉到不同层次的运动和外观变化,从而更好地处理事件边界的多样性。在TAPOS数据集上,该模型将F1分数从52.2%提高到60.4%,提升了8.2个百分点。

  • 渐进式注意力机制:通过渐进式注意力机制,模型能够更有效地聚合外观和运动线索,生成更具区分性的特征表示,从而提高对复杂事件边界的识别能力。

  • 端到端学习:整个模型通过端到端的方式进行训练,简化了训练过程,提高了模型的泛化能力和适应性。

image.png

 

更多论文料可以关注AI科技探寻,发送:111  领取更多[论文+开源码】 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值