笔记2

最新推荐文章于 2024-06-22 09:40:22 发布

lucas1997

最新推荐文章于 2024-06-22 09:40:22 发布

阅读量432

点赞数 1

分类专栏：深度学习

本文链接：https://blog.csdn.net/lucas1997/article/details/109072488

版权

Abstract

开篇直接说明现在建模的gap，图像和视频模型独立分割的状况，发出疑问能否融合有点进行统一建模

Visual saliency modeling for images and videos is treated as two independent tasks in recent computer vision literature.
Can image and video saliency modeling be approached via a unified model, with mutual benefit?

模型训练和测试使用多个公开的图像和视频 Saliency 数据集

图像数据集	视频数据集
DHF1K, Hollywood-2 and UCF-Sports,	SALICON and MIT300

建模中引入了Domain-Adaptive Priors, Domain-Adaptive Fusion, Domain Adaptive Smoothing and Bypass-RNN四个创新的方法。
结果：功能上可以通过参数控制实现预测模式的切换，模型参数量上实现了轻量化，且对比之前模型精度有所提升（必须打上666）。

Introduction

第一段随便介绍saliency prediction/modeling；
第二段引入动态视频数据集和模型；
第三段介绍静态动态建模分割，尤其是一些需要输入光流和固定帧数画面的网络，因此作者发问了

Is it possible to model static and dynamic saliency via one unified framework, with mutual benefit?

第四段，作者想提出图像和视频领域相互切换的模型the domain shift between image and video saliency data，即具有领域自适应技术domain adaption techniques特性的UNISAL neural network architecture（用词真高级）。使用DHF1K, Hollywood-2 and UCF-Sports和SALICON数据集进行网络训练。
第五段，使用上述四个训练集的测试集合部分以及MIT300发现，Unified Image and Video Saliency Modeling性能卓越，outperforms current state-of-the-art methods on all video saliency datasets and achieves competitive performance for image saliency prediction。
第五段，总结主要贡献点：

第一个提出unified saliency detection模型框架
提出了四项domain adaption techniques实现了不同任务的特征共享
相比现有模型参数量有5-20倍的减少

Related Work

Image Saliency Modeling

Saliency Modeling历史介绍，从Itti教授的bottom-up模型介绍到深度学习top-down，简单介绍了近几年的几篇文章。引入到动态视频

Video Saliency Modeling

几类传统方法：low-level visual statistics, with additional temporal features (e.g., optical flow);the center-surround saliency in static scenes。局限性，limited by the representation ability of the low-level features for temporal information.
深度学习方法：via a multi-stream convolutional long short-term memory network (ConvLSTM)；
attention mechanism with ConvLSTM；3D convolutions。局限于resulting in limited applicability to static scenes