《视频理解中的神经网络结构设计》讲座笔记作者：邱钊凡

最新推荐文章于 2023-05-25 18:03:35 发布

进击的煎饼果子

最新推荐文章于 2023-05-25 18:03:35 发布

阅读量622

点赞数

分类专栏：深度学习姿态估计论文翻译笔记文章标签：视频理解网络设计

本文链接：https://blog.csdn.net/u012925946/article/details/102613858

版权

深度学习同时被 3 个专栏收录

41 篇文章 0 订阅

订阅专栏

论文翻译笔记

26 篇文章 1 订阅

订阅专栏

姿态估计

9 篇文章 0 订阅

订阅专栏

Neural Network Architecture Design for Video Understanding

作者 邱钊凡
中国科学技术大学，在读博士生
2019/10/17 于将门创投的斗鱼平台记录
作者简介
微软亚洲研究院实习，京东人工智能研究院实习

第一部分：视频特征提取
Pseudo-3D残差网络
Local and Global Diffusion网络
第二部分：视频理解
视频动作识别
Local and Global Diffusion网络
空间动作定位
时域动作检测
第三部分：总结

第一部分：视频特征学习

核心问题：学习通用特征
语义级别：一句话描述出事件
像素级别：每个像素得到具体的类别

在这里插入图片描述

早期：小规模数据集，手工设计特征
2013-2015：爆发式增长，逐渐开始使用神经网络。包括Two-stream和C3D
2016-2018：Kinetics经典数据集
备注：括号中为数据集类别和数量，红色的标注为作者实验室相关工作

在这里插入图片描述
早期：手工设计特征
中间：图片上学习特征，迁移到视频中
最近：从视频中学习多样特征

ICCV2017成果

P3D网络结构：

在这里插入图片描述
视频比图像多了一个时间维度，如C3D网络，并尝试更深的网络
缺点：参数数量、训练时间、显存都会在一个维度上增长

在这里插入图片描述
提出P3D网络结构：
使用2维卷积在空间域，再使用一维时间域上卷积，替代三维的卷积核
图中为三种简单的block

在这里插入图片描述
迁移到ResNet网络结构，由于只加了具有少量运算量的的时间上的一维卷积，可以看出网络size并没有剧烈增大，且比C3D网络规模要小。

在这里插入图片描述
不同层中分别循环使用三种伪三维卷积，可以达到最好性能。

在这里插入图片描述
尝试在大规模数据集上进行训练。在ImageNet上训练好2维卷积核，再插入一维时域卷积核。

在这里插入图片描述
在不同的视频理解任务上验证泛化性。
结论：使用伪三维卷积的结构，可以从图片、视频两个角度学习到特征，提高准确度

CVPR2019成果

LGD网络结构：

在这里插入图片描述
传统三维卷积核和伪三维卷积都是在局部操作。
缺点：没有考虑到大规模的相关度。
目的：希望在网络设计上提高全局视野
解决办法：增加全局特征，一个路径学习局部特征，另外一个路径学习全局特征。两个路径相互更新，最后Combination来结合

在这里插入图片描述
全局到局部的传播：上采样
局部到全局：average pooling再相加到全局特征上

在这里插入图片描述
网络结构：

LGD-2D：一整段视频，使用sparse sampling，均匀在整段视频中采样帧，每张使用2D方法
LGD-3D：密集采样，在集中的几帧中使用3D卷积操作。
最后两个网络可以combine使用
使用block后，性能有所提升，全局视野有带来作用。
浅蓝色为没有加全局信息，具有全局信息的橙色loss下降更快，也表现了全局视野的好处
表格中Com是Combine两个网络

在这里插入图片描述
Kinetics400 和Kinetics600两个网络中，LGD性能识别效果最好
同时可以看出，在小数据集和动作检测问题也都有很高准确度，迁移性较好
结论：
1.LGD结构成功的将Global和Local信息相结合，提高性能
2. P3D和LGD在计算量上并没有显著提高，非常经济