论文介绍--Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning

最新推荐文章于 2025-03-05 14:44:44 发布

信道者

最新推荐文章于 2025-03-05 14:44:44 发布

阅读量1.4k

点赞数

分类专栏：深度学习基础理论与技术实践人工智能笔记文章标签： VideoCaptioning MSR-VTT MSVD Encoding CVPR

本文链接：https://blog.csdn.net/chr1991/article/details/103806439

版权

本文介绍了Spatio-Temporal Dynamics和Semantic Attribute Enriched Visual Encoding在视频字幕生成中的应用，通过层级短时傅里叶变换处理2D和3D卷积网络特征，并结合物体检测和动作分类模型，提高视频表示的质量，用于生成更准确的视频描述。研究在MSR-VTT和MSVD数据集上进行，虽然并非当时最佳，但提供了新的视角和方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning 这篇论文发表在2019年的CVPR上。作者Nayyer Aafaq等人来自西澳（大利亚）大学。这是一篇改进视频描述工作的论文。作者观察到近期的视频描述工作主要集中于改进解码器（decoder），而较少关注特征提取的部分。作者认为从视频中提取更好的特征也是非常重要的。这篇论文主要有两个贡献：第一就是用层级的短时傅里叶变换对卷积网络提取出来的特征进行浓缩，把时间信息融入其中；第二就是用物体检测模型从视频中提取高层的语义信息，丰富编码器提炼的视频表示。

InceptionResNetv2和C3D分别被用作2D的卷积网络和3D的卷积网络。YOLO在这里被用作物体检测模型。

方法

视频描述这个任务就是在给定视频 $V$ ，生成一句话 $S=\{W_1, W_2, ..., W_w\}$ （包含w个单词）来精确描述视频的内容。在从视频中提取出特征 $v$ 后，普遍使用的优化目标函数就是句子中每个单词概率对数的加和 $E(v, S)=-\sum_{t=1}^w \log{Pr(W_t|v, W_1, ..., W_{t-1})}$ 。