《Long-term Recurrent Convolutional Networks for Visual Recognition and Description》概述

最新推荐文章于 2021-03-02 11:08:24 发布

一只工程狮

最新推荐文章于 2021-03-02 11:08:24 发布

阅读量613

点赞数 1

分类专栏： Paper Computer Vision

本文链接：https://blog.csdn.net/qq_40913465/article/details/106322942

版权

Paper 同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

Computer Vision

9 篇文章 0 订阅

订阅专栏

《Long-term Recurrent Convolutional Networks for Visual Recognition and Description》概述

写在前面：

最近阅读了本片论文，这篇论文主要是基于ConvNet+LSTM的形式对目标进行预测，作者还分别在动作识别、图片描述以及视频描述上都进行了实验对比，以下是文中的一些重要的结论，如有写的不道的地方，欢迎指正。

一、主要贡献

作者提出一种LRCN（Conv+LSTM）的模型结构，这是一类在空间和时间上都很深入的模型，它允许一对多、多对多以及多对一的形式输入输出数据（其实这是由LSTM的特点决定的），该模型还可以直接连接到ConvNet模型中去，并且可以联合训练学习时间动量（temporal dynamics ）和卷积感知表示。

二、模型概述

下图是作者给出在三种任务上构建的模型结构：

更为细节的图片：

在Activity recognition中，作者只提到将T个单独的帧输入到T个卷积网络，然后将T个卷积网络连接到具有256个隐藏单元的单层LSTM。并没有细说如何从视频中提取T帧，在之后的描述中作者说采用了16帧的clip作为分析（这里我没有看懂如何从图片中提取clip）。还有就是由于使用了LSTM，所以每个时刻都进行输出。训练时，一个片段从第1帧到最后一帧输出层获得的梯度分别乘以0.0-1.0的权重，用以强调后面帧的重要性。

这里一点比较吸引人的地方，由于是用来多个CNN，因此在所有的时间步长上，训练能过并行化，但是也同样是是用来LSTM的缘故，每个时间预测输出的结果也比如等待上一个时间片段预测完才能进行下一个预测，因为下一个预测依赖于上一个预测作为一个输入。不懂的话建议去看一下LSTM的解构组成，也可以参考原文，其中有描述。

一只工程狮

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
《Long-term Recurrent Convolutional Networks for Visual Recognition and Description》概述

《Long-term Recurrent Convolutional Networks for Visual Recognition and Description》概述写在前面：最近阅读了本片论文，这篇论文主要是基于ConvNet+LSTM的形式对目标进行预测，作者还分别在动作识别、图片描述以及视频描述上都进行了实验对比，以下是文中的一些重要的结论，如有写的不道的地方，欢迎指正。一、主要贡献作者提出一种LRCN（Conv+LSTM）的模型结构，这是一类在空间和时间上都很深入的模型，它允许一对多、多
复制链接

扫一扫