Two-Stream Convolutional Networks for Action Recognition in Videos读书笔记

本文详细解读了Two-Stream Convolutional Networks for Action Recognition in Videos的研究,该文提出了一种结合空间和时间网络的双流结构,有效提升了行为识别的准确性。通过空间网络处理静态信息,时间网络处理动态信息,结合多帧光流的训练,即便训练数据有限,也能取得良好效果。同时,文章探讨了多任务学习如何增强模型性能,以及双流网络的具体结构和训练细节。
摘要由CSDN通过智能技术生成

        看完这篇文献已经好多天了,重新梳理一下双流Conv网络的读书笔记。仅个人见解,望大家指正交流。

        行为识别是计算机视觉中一个非常重要的方向,无论是科学研究领域还是工业控制领域,都有极高的实用价值,对交通服务以及社交领域都有着极大的推动作用,在学习行为识别的过程当中,遇到了一系列的问题,比如如何在静态的图像和动态的过程之间捕获一种连接性的信息,让两者可以很好地联系起来。这篇文献对这个问题提出了一个很好的见解,介绍了一种双流卷积网络,来实现视频中的行为识别。

Characteristics:

  1. It creatively proposes a two-stream Convnet architecture which incorporates spatial and temporal networks.
  2. It also demonstrates that a Convnet trained on multiframe dense optical flow is able to achieve very good performance in spite of limited training data.
  3. It shows that multi-task learning,applied to two different action classification datasets (UCF-101 and HMDB-51),can be used to increase the amount of training data and improve the performance on both.

      过去通常处理行为识别时,把焦点放在空间信息的处理上,所谓空间信息,也就是独立于帧的表面信息,也就是视频中物体和场景等信息。而时间信息,是帧间的光流,会携带帧帧之间的运动信息。这篇文献针对这个问题提出了一个空间网络与时间网络并存的双流卷积网络结构,利用空间网络去处理静态信息,利用时间网络去处理动态信息,两者相结合可以大大提升行为识别准确率。

       另外,这篇文献提供了另外一个不错的结论,在以多帧密集光流所训练的卷积网络之间,即使训练数据有限,也能实现不错的效果,多帧密集光流是时间网络的载体,是表现时序信息的。在时间网络当中,是通过对光流的处理,来对动态的过程进行表达。

      接下来,还介绍了一个多任务学习的概念,多任务学习是将不同种类的分类数据集进行融合训练,(采用UCF-101 和HMDB-51两个数据集进行融合训练),多任务学习一方面可以提高训练数据量,另一方面,也能改善训练效果降低过拟合。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值