long term recurrent convolutional networks for visual recognition and description

最新推荐文章于 2022-05-07 18:36:02 发布

Kevein111

最新推荐文章于 2022-05-07 18:36:02 发布

阅读量4.1k

点赞数

分类专栏：计算机视觉文章标签： LRCN action recognit

本文链接：https://blog.csdn.net/carrierlxksuper/article/details/51074647

版权

计算机视觉专栏收录该内容

27 篇文章 0 订阅

订阅专栏

这篇属于很早就探索cnn+rnn解决high-level computer vision task的文章

Abstract

基于深度卷积网络的模型已经在最近的图像解释任务中成为主流，在这里我们研究了是否recurrent model能够有效的处理涉及到sequences以及视觉的各种任务。我们开发了一个新的recurrent convolutional 结构来实现大规模的学习任务，而且这个结构是end-to-end trainable, 针对video recogntion tasks,image description 以及image retrival 问题。现有的其他model一般对序列处理，采用假设固定的时空感受野或者简单的时态均值，本文中的recurrent convolutional models 是double deep，并且是对于空间和时间组合的。这个model的优势在于当目标的概念比较复杂或者训练数据有限时候，学习出这种long term 的dependency是可能的。 long term RNN models能够将可变长度的输入（例如 video frames）映射成为可变长度的输出(e.g. natural languages). 我们的model与现代的visual convnet models 直接相连，可以同时学习temporal dynamics 以及convolutional perceptual representations. 我们的结果表明，这些models能够实现state of the art results.

Introduction

本文提出了一个model叫LRCN，结构如上图所示。然后分别拿video activity recognition,image caption generation, video description tasks.我们在这里表明LRCN通常可以应用到visual time-series建模。我们认为在视觉任务中，Long term rnn 能够提供明显的提升，特别是存在大量的训练数据来学习或者refine这个表达的时候。

Long term Recurrent Convolutional Network model

在这篇文章中，作者提出了LRCN model来组合deep hierarchical visual feature extractor和一个能够学会识别自己synthesize temporal dynamic的model。我们的LRCN模型通过将每一个输入vt经过一个特征转化成为一个固定长度的特征表达。当我们获得了visual input sequence:,然后就可以调用sequence model了。