1.主要贡献
1.)提出了一个注意力模块,该模块可将视频帧运动信息补充道视频图像显著性预测结果中。
2.)提出了一个双分支预测网络,两分支分别利用视频帧信息以及代表帧间运动的光流图预测显著性,并通过注意力模块将运动信息补充到显著性分支,使它获得更准确的结果。
2.网络架构
如上图所示,这篇文章设计了蓝色的分支作为显著性分支,绿色分支作为运动分支,两分支分别预测显著性,通过MGA模块融合中间层的信息。单从一个分支来看,就是resnet与训练参数的编码器,加上ASPP结构然后解码器的结构,作者花费心思设计了MGA模,并设计了若干版本,使得这个网络得到了非常不错的结果。
如上图所示,MGA模块首先是考虑特征增强的一个思虑,作者想用运动信息补充显著性息的缺失,怎么做呢?首先让两特征相乘提取公共部分,然后将公共部分加到显著性特征,起到在显著性特征之上补充运动信息的作用。为了使得效果更佳明显,作者还设计了多个版本的MGA模型,首先呢为了使得该结构具有一般性,因为要融合的两特征并不一定是相同维度的,因此MGA-t考虑添加一个1*1卷积天正维度,另外呢,考虑到运动显著性物体可能在图片中不会太大,因此可能会有相当一片区域应该是0,所以作者加了一个sigmoid激活函数来屏蔽噪音。最后呢,作者有考虑到不同特征层的加权问题,也就是说,不同特征层可能携带的信息量是不同的,因此作者又加了全局平均池化将每个层平均为一个权值然后反向作用到特征层起到特征加权的作用。
3.实验结果![](https://img-blog.csdnimg.cn/20200720110424746.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L1N1bk1vb25Wb2Nhbm8=,size_16,color_FFFFFF,t_70)
为了验证双分支的有效性,作者做了上述对比试验,从而验证了两个分支的有效性。
作者还做了融合结构的对比试验,实验可以看出,其实作者提出的MGA的各种变形,效果都并没有明显提升。