Neural Network Architecture Design for Video Understanding
作者 邱钊凡
中国科学技术大学,在读博士生
2019/10/17 于将门创投的斗鱼平台记录
作者简介
微软亚洲研究院实习,京东人工智能研究院实习
目录
- 第一部分:视频特征提取
Pseudo-3D残差网络
Local and Global Diffusion网络 - 第二部分:视频理解
视频动作识别
Local and Global Diffusion网络
空间动作定位
时域动作检测 - 第三部分:总结
第一部分:视频特征学习
核心问题:学习通用特征
语义级别:一句话描述出事件
像素级别:每个像素得到具体的类别
早期:小规模数据集,手工设计特征
2013-2015:爆发式增长,逐渐开始使用神经网络。包括Two-stream和C3D
2016-2018:Kinetics经典数据集
备注:括号中为数据集类别和数量,红色的标注为作者实验室相关工作
早期:手工设计特征
中间:图片上学习特征,迁移到视频中
最近:从视频中学习多样特征
ICCV2017成果 |
视频比图像多了一个时间维度,如C3D网络,并尝试更深的网络
缺点:参数数量、训练时间、显存都会在一个维度上增长
提出P3D网络结构:
使用2维卷积在空间域,再使用一维时间域上卷积,替代三维的卷积核
图中为三种简单的block
迁移到ResNet网络结构,由于只加了具有少量运算量的的时间上的一维卷积,可以看出网络size并没有剧烈增大,且比C3D网络规模要小。
不同层中分别循环使用三种伪三维卷积,可以达到最好性能。
尝试在大规模数据集上进行训练。在ImageNet上训练好2维卷积核,再插入一维时域卷积核。
在不同的视频理解任务上验证泛化性。
结论:使用伪三维卷积的结构,可以从图片、视频两个角度学习到特征,提高准确度
CVPR2019成果 |
传统三维卷积核和伪三维卷积都是在局部操作。
缺点:没有考虑到大规模的相关度。
目的:希望在网络设计上提高全局视野
解决办法:增加全局特征,一个路径学习局部特征,另外一个路径学习全局特征。两个路径相互更新,最后Combination来结合
全局到局部的传播:上采样
局部到全局:average pooling再相加到全局特征上
网络结构:
- LGD-2D: 一整段视频,使用sparse sampling,均匀在整段视频中采样帧,每张使用2D方法
- LGD-3D: 密集采样,在集中的几帧中使用3D卷积操作。
最后两个网络可以combine使用
使用block后,性能有所提升,全局视野有带来作用。
浅蓝色为没有加全局信息,具有全局信息的橙色loss下降更快,也表现了全局视野的好处
表格中Com是Combine两个网络
Kinetics400 和Kinetics600两个网络中,LGD性能识别效果最好
同时可以看出,在小数据集和动作检测问题也都有很高准确度,迁移性较好
结论:
1.LGD结构成功的将Global和Local信息相结合,提高性能
2. P3D和LGD在计算量上并没有显著提高,非常经济
Arixiv2019成果 |
Normal Cell 指的是时域空间域上维度不发生变化
ST-Reduction指的是时域空间域都降低维度的模块
图像上我们使用Cifar10数据集进行网络结构的搜索,再transform到Imagenet
视频中我们挑出一部分组成Kinetics10数据集,与Cifar-10规模相近,
Separable-3d卷积操作:深度空间卷积再加上空间卷积,由此我们构建出三个操作集
检索方法:
- 使用梯度下降来优化网络结构。前驱操作将每个边都进行连接,训练权重,使用验证集选择最优的连接。
缺点:先训练再挑选,训练时间长 - 我们选用的方法:训练过程中某项操作超过其他操作很多,则提前固定局部的操作,之后的训练以此条边为准。
栗子:训练刚开始时,每条边会使用所有操作并行的计算。随着epoch增大,逐渐确定一些边的连接
cifar10和ImageNet上的对比实验
相比DAS,训练时间更少,更低的test error
使用这种检索方式,应用到视频数据中
和常见网络结构相比,参数数量和性能都有提高。
右上的表格也显示Kinetics10上的实验提升较大
第二部分 ,具体项目中网络结构
ActivityNet Challenge2019 |
系统包含三个部分,并行插入时域卷积,LGD部分插入全局网络
TCP网络对10s视频提取20个特征,只使用一次Poingwise卷积
Tree stream: audio声音部分提取频谱图,使用2D方法做分类
Single stream时
Xception结构中,加大Clip 或者利用级联网络可以提高网络性能。加大clip与级联二者提高程度相近
不同stream-fusion上,还是不可或缺的过程。
声音信息的加入可以带来1%的提高。
CVPR2019成果 |
传统方法:一维卷积
缺点:不能动态的感受时间更长的动作,因而使用高性能Kernel
我们的方法:
特征提取,视频序列变成特征序列
不同尺度上,预测出不同的sigma 得到不同大小Kernel
ACMMM2019成果 |
动作定位:
时间上定位,还要定位动作在空间中的位置
通过short-tern 和long-term分别建模。
short-term上,切成短clip,检测每个人的bounding box ,然后找到Tubelet
long-term方面,不同clip之间,同一个物体共同判断,把同一个人merge起来
总结:
- 视频特征理解数据集规模变大,因而模型能学到更好的特征。
- 伪三维、局部全局信息、自动设计网络三方面的工作
- 对更多的任务:网络设计也针对不同任务的有所倾向
- 其他流行的视频理解任务