该论文主要内容有两点:
一、建立了包含场景更加丰富的数据集,
二、提出了一个结合注意力机制的CNN-LSTM网络,作为视频显著性检测模型。
数据集:已有的一些数据集,要么数量太少,要么场景单一,且annotation获取时是由任务驱使的不是自由观看的。【显著性检测的是free view时人眼的凝视点】。我们建立了一个场景更加丰富的数据集,共1k份视频,由17名观察者标注完成。
网络模型:网络结构如图,每一帧图片输入到VGG-16【去掉全连接】的网络中,然后一段接Attention Model,另一端直接连接,,输出如左图,将注意力模块的输出与原输出相加,以保证不丢失有用的信息,从而得到每一帧的动态特征图。将每一帧的动态特征图输入到ConvLSTM中,通过记忆之前帧的显著性图像,指导当前帧的显著性图像,从而保证帧间的注视点平滑转移。
有意思的点&#