DeepVS: A Deep Learning Based Video Saliency Prediction Approach学习笔记

一、摘要

①由于已有的数据规模比较小,并且分辨率不高,关注点采样率比较低。
针对这一点:作者建立了一个大规模的眼动数据库LEDOV

①通过观察建立的视频眼动数据库,发现人的注意力更容易被物体,尤其运动的物体或者物体运动的部分吸引。
针对这一点:提出了一个物体到运动的卷积网络OM-CNN去预测帧内显著性。

②从该数据库还能发现,人类注意力与跨视频帧的平滑显著性转换具有时间相关性。
针对这一点:提出了显著性结构卷积长短期记忆网络SS-ConvLSTM,他使用OM-CNN提取的特征作为输入,生成视频帧之间的显著性图。

那么OM-CNN网络有什么特点呢?
该网络由对象子网(objectness subnet)和运动子网(motion subnet)组成,提出了交差网络掩码和分层特征归一化,他们可以将对象子网的空间特征和运动子网的时间特征结合起来。
OM-CNN提取的特征可以作为SS-ConvLSTM的输入,生成一个同时考虑具有中心偏差的结构化输出和人类注意力图的跨帧过渡的视频帧之间的显著性图。

现在已经大概了解了该论文的一些特点,那么接下来要做的事就是考虑几个问题:

  1. LEDOV数据库如何建立?
  2. OM-CNN如何实现?
  3. 什么是交差网络掩码(cross-net mask)和分层特征归一化(hierarchical feature normalization)?
  4. cross-net mask和hierarchical feature normalization如何提取objectness subnet的空间特征和motion subnet的时间特征?
  5. SS-ConvLSTM如何实现?
  6. 该方法测试结果如何?

二、关于LEDOV数据库

该数据库包含了32个人观看538个不同内容视频的自由视角注视数据。具体视频内容如下图:
在这里插入图片描述
该数据库一共包含了179336帧,6431秒的视频,并且所有视频的分辨率至少为720p,帧率稍稍为24Hz.
受试者与监视器之间固定65cm,观看视频之前每名受试者对眼动仪执行9点校准,之后就可以随机观看视频。之后把完成眼动实验者分为两组,每组进行五次,测量每组的相关系数,并在五个时间段取平均相关系数,得到最终的数据集。

三、关于OM-CNN

分析该数据库,我们发现人类注意力是与物体和物体的运动高度相关的,因此我们可以通过对象子网(objectness subnet)和运动子网(motion subnet)来预测视频显著性。
在OM-CNN中,对象子网能产生运动子网中卷积层特征的cross-net mask,之后利用分层特征归一化把对象子网的空间特征和运动子网的时间特征连接起来,生成OM-CNN的时空特征。

1.OM-CNN的总体结构图

在这里插入图片描述
从该图我们可以看出,OM-CNN由两个子网组成。

2.关于objectness subnet

其中objectness subnet是使用精简结构和预训练参数的YOLO,去避免过拟合,提取与物体对象相关的空间多尺度空间特征;而为了进一步避免过拟合,这里向每个卷积层添加额外的批量归一化层。
objectness subnet的第k层卷积层的输出为:
在这里插入图片描述
其中:
L0.1表示激活函数为Leaky RELU,并且其稀疏为0.1
BN(·)表示批量归一化
P(·)表示最大池化
*表示卷积操作
Wk−1 与Bk-1表明第k-1个卷积层的权重和偏差的核心参数

3.关于motion subnet

该网络主要是为了从相邻帧对中提取多尺度的时间特征。motion subnet使用的是FlowNet的结构和预训练参数。

4.关于hierarchical feature normalization和cross-net mask

他们可以联合物体子网和运动子网的多尺度特征来预测显著性,其中cross-net mask能在生成时间特征时编码物体信息。
另外,还提出了一个推理模块Inference module去基于学习的特征生成cross-net mask和显著图。
Hierarchical FN:为了利用不同感受野的多尺度信息,从物体和运动子网的不同卷积层提取输出特征。简言之,他可以将多层卷积层提取的特征进行归一化连接起来
Inference module:用Hierarchical FN在物体子网和运动子网连接后得到的空间特征和时间特征,构造一个推理模块去生成显著性图。该显著性图可以用于训练OM-CNN模型,并且Inference module是一个CNN结构,它的第四层输出即为最终的时空特征,该时空特征可以作为SS-ConvLSTM的输入进行帧内显著性预测。
Cross-net mask:由于人类的注意力机制更容易被运动的物体或物体的运动部分所吸引的,但在运动子网只能定位整个视频帧的运动部分而没有物体信息,因此提出了Cross-net mask去对运动子网的卷积层进行掩码,方便定位运动的物体和物体的运动部分。

四、SS-ConvLSTM

在这里插入图片描述
从图中可以看出,我们会输入OM-CNN输出的特征FO,在第t帧,他会通过上一帧第一层和第二层LSTM的隐藏状态和存储单元得到输入特征的长短期相关性,接着将第二层的隐藏状态送到第二个去卷积层去生成第t个帧的显著性图St。

SS-ConvLSTM 考虑到了基于显著性的先验知识:中心先验和稀疏先验。中心先验指的是人们在看视频或者图片的时候往往容易关注到中心的位置。因此,这里提出了Center-bias Dropout
在这里插入图片描述
CB dropout operator Z(pb)
Bino(L,P)是随机生成的mask,每个像素会根据概率P经过L试验二项分布,这个概率P,则是有CB图Scb化,其中Scb可以从像素(i,j)到中心距离(W/2,H/2)获得。
第t帧的LSTM单元:
在这里插入图片描述

4.1 损失函数

这里使用的损失函数是基于Kullback-Leibler (KL) divergence(KL散度)的。
这里先对KL散度做一个大概说明:KL散度是一个用来衡量两个概率分布的相似性的一个度量指标。在我们从数据中提取信息时,当数据量过大时我们对整个数据总体分析是比较复杂的,所以一般都会选择抽样,选取数据的部分样本,根据选取的样本对整体做一个近似估计。但我们也都知道这个数据整体它是有一个真实的分布的,那么我们近似估计的概率分布和数据总体真实的概率分布的相似度就可以用KL散度表示。
因此,我们将显著图视为注意力的概率分布,然后测量OM-CNN的显著图与人类注视的真实分布之间的KL散度:
在这里插入图片描述
KL散度越小则显著性预测的精度越高。

为了训练SS-ConvLSTM会将训练视频切成长度为T帧的相同片段,固定OM-CNN的参数提取这T帧视频片段的时空特征。SS-ConvLSTM的损失函数可以表示为T帧上的平均KL散度:

在这里插入图片描述

五、结果

把538个视频随机分为456个训练集,41个验证集合41个测试集;把456个训练视频分割成24685个视频片段,每段有16帧(T=16),并且为了增加数据每段可以有10帧重复帧。
在这里插入图片描述
该表展示了我们的算法与一些其他的先进算法在四个度量AUC、NSS、CC、KL上的对比:发现我们的AUC、NSS、CC是高于其他算法的,KL散度是低于其他算法的,因此本文算法的效率更高。
在这里插入图片描述
在测试集随机选个8个视频的某一帧显著检测对比图。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值