《Long-term Recurrent Convolutional Networks for Visual Recognition and Description》概述

《Long-term Recurrent Convolutional Networks for Visual Recognition and Description》概述

写在前面:

最近阅读了本片论文,这篇论文主要是基于ConvNet+LSTM的形式对目标进行预测,作者还分别在动作识别、图片描述以及视频描述上都进行了实验对比,以下是文中的一些重要的结论,如有写的不道的地方,欢迎指正。

一、主要贡献

作者提出一种LRCN(Conv+LSTM)的模型结构,这是一类在空间和时间上都很深入的模型,它允许一对多、多对多以及多对一的形式输入输出数据(其实这是由LSTM的特点决定的),该模型还可以直接连接到ConvNet模型中去,并且可以联合训练学习时间动量(temporal dynamics )和卷积感知表示。

二、模型概述

下图是作者给出在三种任务上构建的模型结构:

更为细节的图片:

在Activity recognition中,作者只提到将T个单独的帧输入到T个卷积网络,然后将T个卷积网络连接到具有256个隐藏单元的单层LSTM。并没有细说如何从视频中提取T帧,在之后的描述中作者说采用了16帧的clip作为分析(这里我没有看懂如何从图片中提取clip)。还有就是由于使用了LSTM,所以每个时刻都进行输出。训练时,一个片段从第1帧到最后一帧输出层获得的梯度分别乘以0.0-1.0的权重,用以强调后面帧的重要性。

这里一点比较吸引人的地方,由于是用来多个CNN,因此在所有的时间步长上,训练能过并行化,但是也同样是是用来LSTM的缘故,每个时间预测输出的结果也比如等待上一个时间片段预测完才能进行下一个预测,因为下一个预测依赖于上一个预测作为一个输入。不懂的话建议去看一下LSTM的解构组成,也可以参考原文,其中有描述。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
长短期记忆(long short-term memory)是一种用于建立和训练循环神经网络(Recurrent Neural Networks)的模型,也是一种用于处理序列数据的有效方法。长短期记忆是循环神经网络的一种变种,通过引入门控机制解决了普通循环神经网络中遇到的梯度消失和梯度爆炸的问题。 长短期记忆的核心结构是记忆单元(memory cell),它具有输入门(input gate)、遗忘门(forget gate)和输出门(output gate)三个关键组件。输入门负责决定新的输入信息会被存储到记忆单元中的哪些位置上,遗忘门负责控制哪些过去的记忆应该被遗忘,输出门负责控制从记忆单元中输出的信息。 长短期记忆通过这些门控制记忆单元中的信息流动,可以保留对重要信息的长期记忆,同时也能够快速地遗忘不重要的信息。这种机制使得长短期记忆在处理长序列数据时更加有效,能够捕捉到序列中的长期依赖关系。 长短期记忆的训练使用的是反向传播算法,通过最小化损失函数来更新网络的权重参数。在训练过程中,长短期记忆可以自动学习到序列数据中的模式和规律,从而可以实现对序列数据的预测和生成。 长短期记忆在自然语言处理、语音识别、时间序列预测等领域有着广泛的应用。相比于其他循环神经网络的变种,长短期记忆能够更好地处理长序列数据中的记忆和依赖关系,取得了很好的效果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值