视频理解1-two-stream

最新推荐文章于 2022-11-26 22:20:42 发布

看不见我呀

最新推荐文章于 2022-11-26 22:20:42 发布

阅读量405

点赞数

分类专栏：基础算法文章标签：计算机视觉深度学习 cnn

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gaotihong/article/details/124989843

版权

基础算法专栏收录该内容

36 篇文章 3 订阅

订阅专栏

视频理解

视频分类，也叫做动作识别，或者视频理解。因此对人的动作感兴趣。

概述

单个cnn仅适合学习局部信息，不适合学习移动信息。

因此，学习光流到动作的映射。

时间流网络：一系列的光流。

1. 光流

观察者和场景中各种物体的运动。描述视频中各个物体时如何运动的。

背景没有动。越亮的地方，运动越厉害。

光流是非常有效的表示物体之间运动的特征。

光流可以忽略性别，穿着等，仅仅关注与动作本身。

3. 摘要

3.1 需要同时获取两种信息：

（1）静止图像的外观信息：形状，大小，颜色，场景等；

（2）物体的运动信息，或者视频的时序信息。

3.2 三个贡献

（1）双流网络-空间流 + 时间流；

（2）少量数据上，即使只用光流信息，也可以获得不错的结果。

（3）多任务学习，2个数据集，同时学习backbone。

4. 引言

（1）视频自带数据增强功能；

（2）视频帧直接丢i给网络。很差

（3）手工特征，在光流轨迹上提取特征，很好的抓取运动信息。空间流，采用预训练网络。

(4) 将一个视频扔给一个2D网络，和将一系列视频丢给一个3D网路，很相似，学不到时空信息。

5. 双流网络的结构

空间流：获取外观信息；

时间流：获取运动信息；

最后，合并信息，采用加权平均/svm分类。

5.1 空间流

采用静止的信息，图像学习关联物体，本来就不错了。并且可以做预训练。

5.2 时间流

每个像素点，都会运动，如果不运动，光流幅度就会为0.

每两张图像，得到一张光流。

5.2.2.如何使用光流

如果将光流图，拆解出来，则意义不大了。学不到时序信息。

因此，光流网络是输入多个光流的。

5.2.3.如何叠加光流

光流已经经过resize了

左边：基于固定坐标的方式搜索；右边：基于移动坐标的方式搜索（基于轨迹的方式）。

实验结果：左边的方式，比右边要好一些。

双向光流：前半段做前向光流，后半段做后向光流。此时的光流输入为2L。

光流怎么叠加：

此光流送入时间流网络。

上面输入维度为3，下面输入维度为2L。

11帧。

叠加方式:先叠加水平的光流，后竖直的光流。

5.2.4 实现细节

测试：等间距抽帧

光流：先取25帧，然后往后连续取11帧，获取光流，然后光流送入时间流网络。

最后将所有的结果，取平均。

空间流和时间流，分别各自取平均，然后做late fusion，加一起除以2。此为最终的双流网络的结果。

抽取光流：很耗时，密集表示，存储空间大。

6.实验结果

光流时序越长，效果越好。

简单的堆叠更好

双向光流更好。

论文音声

看不见我呀

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
视频理解1-two-stream

视频理解视频分类，也叫做动作识别，或者视频理解。因此对人的动作感兴趣。概述单个cnn仅适合学习局部信息，不适合学习移动信息。因此，学习光流到动作的映射。时间流网络：一系列的光流。光流观察者和场景中各种物体的运动。描述视频中各个物体时如何运动的。背景没有动。越亮的地方，运动越厉害。光流是非常有效的表示物体之间运动的特征。光流可以忽略性别，穿着等，仅仅关注与动作本身。3. 摘要3.1 需要同时获取两种信息：（1）静止图像的外观信息：形状，大小，颜色，
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。