Two-Stream Convolutional Networks for Action Recognition in Videos算法笔记

最新推荐文章于 2022-10-22 15:41:45 发布

AI之路

最新推荐文章于 2022-10-22 15:41:45 发布

阅读量1.3w

点赞数 10

分类专栏：深度学习视频分类/理解/分析计算机视觉文章标签：深度学习与计算机视觉

本文链接：https://blog.csdn.net/u014380165/article/details/78756459

版权

本文详细介绍了NIPS 2014年提出的两流卷积网络（Two-Stream Convolutional Networks）在视频动作识别中的应用。两流网络包括空间流和时间流，分别处理静态图像和光流信息。通过实验表明，光流信息作为输入在识别运动方面优于连续帧。此外，文章探讨了光流的获取和不同输入方式对模型性能的影响，并采用多任务学习来处理小规模视频数据集。实验结果显示，时间流网络对动作识别至关重要，且与空间流互补，提高了整体识别效果。

摘要由CSDN通过智能技术生成

论文：Two-Stream Convolutional Networks for Action Recognition in Videos
链接：https://arxiv.org/abs/1406.2199

这篇文章是NIPS 2014年提出一个two stream网络来做video action的分类，比较经典。two stream表示两个并行的网络：spatial stream convnet 和 temporal stream convnet. 这两个并行网络的作用是：The spatial stream performs action recognition from still video frames, whilst the temporal stream is trained to recognise action from motion in the form of dense optical flow.

Figure1是two stream convnet的示意图。其中spatial stream convnet网络的输入是静态图像，该网络是一个分类网络，用来识别行为。temporal stream convnet输入是multi-frame optical flow，optical flow是从video中提取的特征信息。作者在总结中提到对于temporal stream convnet，用optical flow（翻译过来是光流信息）作为输入的效果要远远优于用raw stacked frame（就是简单的一系列帧）作为输入。

这里写图片描述

可以看出optical flow是文章的关键词，那么什么是optical flow？可以看原文的一段解释如下截图。

这里写图片描述

所以optical flow是由一些displacement vector fields（每个vector用dt表示）组成的，其中dt是一个向量，表示第t帧的di

最低0.47元/天解锁文章

AI之路

关注

10
点赞
踩
77

收藏

觉得还不错? 一键收藏
6
评论
Two-Stream Convolutional Networks for Action Recognition in Videos算法笔记

论文：Two-Stream Convolutional Networks for Action Recognition in Videos 链接：https://arxiv.org/abs/1406.2199这篇文章是NIPS 2014年提出一个two stream网络来做video action的分类，比较经典。two stream表示两个并行的网络：spatial stream conv
复制链接

扫一扫

专栏目录