Long-term Recurrent Convolutional Networks for Visual Recognition and Description - 阅读笔记 - 时序视频处理

Paper Reading Note

URL: https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Donahue_Long-Term_Recurrent_Convolutional_2015_CVPR_paper.pdf

TL;DR

论文提出了一种结合传统CNN网络和LSTM的新网络结构Long-term recurrent Convolutional Networks (LRCN),该网络同时具备处理时序视频输入或单帧图片的能力,同时也具备输出单值预测或序列预测的能力,这使得LRCN成为处理序列输出输入信息的集大成网络。


Dataset/Algorithm/Model/Experiment Detail

数据集

这篇对三个不同的任务进行了实验分析,三个任务及使用的数据集如下所示:

  • activity recognition
    使用经典的UCF-101数据集,包含超过12000个视频数据,共包括101个动作分类,其中又分为了三个splits,作者实验中有分splits进行测试,每个splits中的训练集中的视频数低于8000个,可见该数据集其实数量有限,作者提到需要使用预训练模型降低模型过拟合的可能性
  • image description
    实验数据集包括Flickr30k,COCO2014,每个图片包含五个句子标注
  • video desciption
    实验数据集使用TACoS,包含44762个视频和句子配对,其中大概有40000个配对用于训练集和验证集
实现方式
  • 作者提出的网络LRCN的结构示意图如下,即网络输入图片后先使用传统CNN来提取输入图片的feature,然后将这些具备时序关联的图片的feature送入后续的LSTM网络进行处理,并得到时序的输出。值得注意的是该结构对于cnn和lstm的结合方法总结得非常全面,其中的输入可以是单帧图片或者是视频中的序列信息,同时网络的数据也可以是单个预测值或序列预测值,这使得该网络可以适应多种任务处理。
    在这里插入图片描述

  • 作者首先是对LSTM的原理进行了介绍。LSTM是对传统RNN的改进版本,RNN是基本的对时序动态信息进行建模的方法,这是由于RNN的网络的隐藏层中的节点会接受前一时刻的隐藏层节点的状态影响,但是这样的方式对于加长时序动态的建模效果不佳,主要是由于随着隐藏层节点数据的增加,梯度反传过程有梯度弥散或梯度爆炸问题。而LSTM如以下右图所示,其通过forget gate和input gate的调节作用让模型自己学习选择是否遗忘之前的状态来多考虑当前的输入,同时output gate也学习需要多大程度将memory cell的信息迁移到隐层状态中去,这使得模型增强对较长时序动态的建模能力。
    在这里插入图片描述

  • 处理三种不同任务的网络框架示意图,其中动作识别任务输入的图片是时序图片,输出单个预测值表示存在某动作的概率;图片介绍任务是输入单帧图片信息来输出序列文字对该图片进行描述;视频描述任务是输入时序的图片信息,并同时输出序列的文字对视频内容进行描述。
    在这里插入图片描述

实验结果
  • 动过识别任务:实验主要分为以下四个方面的对比
    • 对比rgb图片输出和处理成光流图片输入来看,光流输入能够取得更好的结果
    • 对比基于单帧预测的方法,作者提出的LRCN可以基于序列输入信息来得到更高的精度
    • 对比仅使用光流或者仅使用RGB图片输入,采用融合rgb和光流输入的方法能够取得更好的结果,融合的方式是将基于rbg输入的网络输出值与基于光流图片输入的网络输出值取平均
    • 对于将LSTM置于全连接层第一层后面与第二层后面来看,置于第一层后面能够取得更优的结果

在这里插入图片描述

  • 图片描述任务,作者提出的方法在retrieval和setence generation方面基本都取得了SOTA的结果
    在这里插入图片描述
    在这里插入图片描述

  • 视频描述任务
    值得注意的是作者在视频描述任务中使用了CRF而不是CNN网络结构,其网络结构如下所示:
    在这里插入图片描述
    其中第一种方法是基于CRF的最大后验概率并结合LSTM结构的编码器解码器而得到,第二种方法直接将LSTM用成解码器的形式,第三种方法与第二种方式的不同之处在于这里取CRF的输出概率给LSTM来做进一步建模而得到解码后的序列输出,而不是依赖于最大后验概率的输出。

Thoughts

这篇文章可以说是视觉领域中处理时序信息的经典和大成之作,虽然很多方法在现在来看取得的结果并不是SOTA的,但是这篇文章提出的网络已经基本囊括了序列输入及输出的所有方面,同时也选取了三个典型样例任务(动作识别,图片描述,视频描述)来对网络设计与实验进行阐述。这篇文章的创作思路个人认为是研究中非常优秀,这种做研究就把问题和解决思路考虑非常全面的方式非常值得学习。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值