keras cnn注意力机制_2019 SSA-CNN(自注意力机制)目标检测算法论文阅读笔记

69942b4bd878e7b161328c32f8bd7b23.png

背景

《SSA-CNN Semantic Self-Attention CNN for Pedestrian Detection》是2019 的工作,其作者来自于南洋理工。这篇文章主要是做行人检测的,但是原理完全可以用到通用目标检测中。

论文链接:

SSA-CNN: Semantic Self-Attention CNN for Pedestrian Detection​arxiv.org

一、研究动机

作者提出了Semantic Self-Attention(SSA)方法,将目标检测框作为分割的ground truth,并利用其学习分割的特征,将该特征和检测特征融合(作为检测特征的attention map)然后进行检测。其动机主要在于,1)联合学习分割和检测是有助于性能的提升(多任务学习的观点);2)分割的attention有助于抑制背景。

二、具体方法

2f2b34b8b2f3051296fded3897b84b47.png

整体框架如图所示,以Faster RCNN为基本框架:

1)SSA机制(Semantic Self-Attention)

以真值的检测框作为分割的mask,在原特征图上通过卷积学习这个mask,并把这个学习得到的特征图作为attention map,融合到原特征图上。注意此处,该attention map是和原图进行concat,而不是相乘,这是和主流attention机制不同的地方。同样在GCNet(阅读笔记张凯:2019 GCNet(attention机制,目标检测backbone性能提升)论文阅读笔记)这篇论文中attention机制采用了加法,比乘法性能提升将近1个点。

2)SSA-RPN

整个网络以VGG作为backbone,在训练阶段,分别在conv4_3和conv5_3中加入SSA机制,其损失函数如下:

29571257ec2374a96ec999f379aabf4e.png

分别代表conv4_3和conv5_3的分类损失函数、位置回归损失函数、分割损失函数。

3)SSA-RCNN

RCNN同样是一个VGG网络,将RPN得到的proposal进行resize输入到RCNN网络,注意在RCNN阶段只做分类。不同于SSA-RPN,在RCNN阶段,conv4_3和conv5_3的attention map 和conv5_3做concat,然后进行分类,其损失函数如下:

3716318a9c098a1fe590a80bbc00cc4c.png

分别代表conv5_3的分类损失函数、分割损失函数、conv4_3分割损失函数。

最后,将RPN和RCNN的结果做NMS处理,得到最后的检测结果。

三、实验结果

f2047be2db300a35429dd7630d86a969.png

从可视化的结果看,SSA-CNN在feature map对人有很强的响应,相较SDS-RCNN。

0b2fd7af744349fbb496f500b136af5e.png

和其他state-of-the-art方法而言,其性能有明显的提升。

四、总结分析

从方法上说,多任务联合学习确实有助于性能的提升,从attention map上看,也确实学习到了分割的语义信息,后续可以借鉴到通用目标检测中。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值