Two-Stream Convolutional Networks for Action Recognition in Videos算法笔记

本文详细介绍了NIPS 2014年提出的两流卷积网络(Two-Stream Convolutional Networks)在视频动作识别中的应用。两流网络包括空间流和时间流,分别处理静态图像和光流信息。通过实验表明,光流信息作为输入在识别运动方面优于连续帧。此外,文章探讨了光流的获取和不同输入方式对模型性能的影响,并采用多任务学习来处理小规模视频数据集。实验结果显示,时间流网络对动作识别至关重要,且与空间流互补,提高了整体识别效果。
摘要由CSDN通过智能技术生成

论文:Two-Stream Convolutional Networks for Action Recognition in Videos
链接:https://arxiv.org/abs/1406.2199

这篇文章是NIPS 2014年提出一个two stream网络来做video action的分类,比较经典。two stream表示两个并行的网络:spatial stream convnet 和 temporal stream convnet. 这两个并行网络的作用是:The spatial stream performs action recognition from still video frames, whilst the temporal stream is trained to recognise action from motion in the form of dense optical flow.

Figure1是two stream convnet的示意图。其中spatial stream convnet网络的输入是静态图像,该网络是一个分类网络,用来识别行为。temporal stream convnet输入是multi-frame optical flow,optical flow是从video中提取的特征信息。作者在总结中提到对于temporal stream convnet,用optical flow(翻译过来是光流信息)作为输入的效果要远远优于用raw stacked frame(就是简单的一系列帧)作为输入。

这里写图片描述

可以看出optical flow是文章的关键词,那么什么是optical flow?可以看原文的一段解释如下截图。

这里写图片描述

所以optical flow是由一些displacement vector fields(每个vector用dt表示)组成的,其中dt是一个向量,表示第t帧的di

  • 10
    点赞
  • 77
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值