《Long-term Recurrent Convolutional Networks for Visual Recognition and Description》概述

《Long-term Recurrent Convolutional Networks for Visual Recognition and Description》概述

写在前面:

最近阅读了本片论文,这篇论文主要是基于ConvNet+LSTM的形式对目标进行预测,作者还分别在动作识别、图片描述以及视频描述上都进行了实验对比,以下是文中的一些重要的结论,如有写的不道的地方,欢迎指正。

一、主要贡献

作者提出一种LRCN(Conv+LSTM)的模型结构,这是一类在空间和时间上都很深入的模型,它允许一对多、多对多以及多对一的形式输入输出数据(其实这是由LSTM的特点决定的),该模型还可以直接连接到ConvNet模型中去,并且可以联合训练学习时间动量(temporal dynamics )和卷积感知表示。

二、模型概述

下图是作者给出在三种任务上构建的模型结构:

更为细节的图片:

在Activity recognition中,作者只提到将T个单独的帧输入到T个卷积网络,然后将T个卷积网络连接到具有256个隐藏单元的单层LSTM。并没有细说如何从视频中提取T帧,在之后的描述中作者说采用了16帧的clip作为分析(这里我没有看懂如何从图片中提取clip)。还有就是由于使用了LSTM,所以每个时刻都进行输出。训练时,一个片段从第1帧到最后一帧输出层获得的梯度分别乘以0.0-1.0的权重,用以强调后面帧的重要性。

这里一点比较吸引人的地方,由于是用来多个CNN,因此在所有的时间步长上,训练能过并行化,但是也同样是是用来LSTM的缘故,每个时间预测输出的结果也比如等待上一个时间片段预测完才能进行下一个预测,因为下一个预测依赖于上一个预测作为一个输入。不懂的话建议去看一下LSTM的解构组成,也可以参考原文,其中有描述。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值