Context R-CNN一种基于注意力机制的视频检测算法

最近遇到同一环境下,拍摄多张图片,检测结果存在差异的问题,故调研,考虑使用融合多帧信息去解决上述问题,发现这篇论文,该算法适用于我当前的问题,更适用于从事监控领域的同学,算法细节不赘述,看算法主体思路:

算法框架

算法前半部分与双阶段RPN网络基本无异, 只是输入为多帧图片,得到若干anchor box的featrues,其中关键帧提取出n个,关键帧与其他帧共m个,此处双阶段检测相比于单阶段在视频信息融合上体现出了优势,即可以提取语义特征后接融合算法,接下来就是融合RPN的信息,论文中使用了attention机制,为了减少运算和存储负担,先对RPN特征进行pooling,此处操作和SEblock很像,之后通过前向得到q,k,v,q由关键帧得到,字典k则由所有帧(上下文帧以及关键帧)前向得到,接下来的操作在我看来具有很强的可解释性,通过q与k相乘,很好的查找了上下文特征与关键帧特征相关联的信息,并得到高权重,最后对v加权,投影后再叠加到关键帧的RPN特征上。

这种通过attention融合第一阶段特征进行视频分析相似的论文还有Object Detection in Video with Spatial-temporal Context Aggregation,Memory Enhanced Global-Local Aggregation for Video Object Detection,在我看来这几篇基本是一个意思,但谷歌的这篇论文写的不错,另外两篇notation满天飞,看着烦,只粗读

 

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值