论文介绍--Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning

Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning 这篇论文发表在2019年的CVPR上。作者Nayyer Aafaq等人来自西澳(大利亚)大学。这是一篇改进视频描述工作的论文。作者观察到近期的视频描述工作主要集中于改进解码器(decoder),而较少关注特征提取的部分。作者认为从视频中提取更好的特征也是非常重要的。这篇论文主要有两个贡献:第一就是用层级的短时傅里叶变换对卷积网络提取出来的特征进行浓缩,把时间信息融入其中;第二就是用物体检测模型从视频中提取高层的语义信息,丰富编码器提炼的视频表示。

InceptionResNetv2和C3D分别被用作2D的卷积网络和3D的卷积网络。YOLO在这里被用作物体检测模型。

方法

视频描述这个任务就是在给定视频V,生成一句话S=\{W_1, W_2, ..., W_w\}(包含w个单词)来精确描述视频的内容。在从视频中提取出特征v后,普遍使用的优化目标函数就是句子中每个单词概率对数的加和E(v, S)=-\sum_{t=1}^w \log{Pr(W_t|v, W_1, ..., W_{t-1})}

如果用M表示解码器映射,Q表示编码器映射,S表示句子,那么我们可以把视频描述表示为M(Q(V))\rightarrow S。接下来介绍作者对Q的改进。

在这里,视频的特征表示主要由四部分组成v=[\alpha; \beta; \gamma; \eta]

2D卷积网络从视频中提取出特征

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值