《视频理解中的神经网络结构设计》讲座笔记 作者:邱钊凡

Neural Network Architecture Design for Video Understanding

作者 邱钊凡
中国科学技术大学,在读博士生
2019/10/17 于将门创投的斗鱼平台记录
作者简介
微软亚洲研究院实习,京东人工智能研究院实习

目录

  1. 第一部分:视频特征提取
    Pseudo-3D残差网络
    Local and Global Diffusion网络
  2. 第二部分:视频理解
    视频动作识别
    Local and Global Diffusion网络
    空间动作定位
    时域动作检测
  3. 第三部分:总结

第一部分:视频特征学习

核心问题:学习通用特征
语义级别:一句话描述出事件
像素级别:每个像素得到具体的类别


在这里插入图片描述

早期:小规模数据集,手工设计特征
2013-2015:爆发式增长,逐渐开始使用神经网络。包括Two-stream和C3D
2016-2018:Kinetics经典数据集
备注:括号中为数据集类别和数量,红色的标注为作者实验室相关工作

在这里插入图片描述
早期:手工设计特征
中间:图片上学习特征,迁移到视频中
最近:从视频中学习多样特征

ICCV2017成果
P3D网络结构:

在这里插入图片描述
视频比图像多了一个时间维度,如C3D网络,并尝试更深的网络
缺点:参数数量、训练时间、显存都会在一个维度上增长

在这里插入图片描述
提出P3D网络结构:
使用2维卷积在空间域,再使用一维时间域上卷积,替代三维的卷积核
图中为三种简单的block

在这里插入图片描述
迁移到ResNet网络结构,由于只加了具有少量运算量的的时间上的一维卷积,可以看出网络size并没有剧烈增大,且比C3D网络规模要小。

在这里插入图片描述
不同层中分别循环使用三种伪三维卷积,可以达到最好性能。

在这里插入图片描述
尝试在大规模数据集上进行训练。在ImageNet上训练好2维卷积核,再插入一维时域卷积核。

在这里插入图片描述
在不同的视频理解任务上验证泛化性。
结论:使用伪三维卷积的结构,可以从图片、视频两个角度学习到特征,提高准确度

CVPR2019成果
LGD网络结构:

在这里插入图片描述
传统三维卷积核和伪三维卷积都是在局部操作。
缺点:没有考虑到大规模的相关度。
目的:希望在网络设计上提高全局视野
解决办法:增加全局特征,一个路径学习局部特征,另外一个路径学习全局特征。两个路径相互更新,最后Combination来结合

在这里插入图片描述
全局到局部的传播:上采样
局部到全局:average pooling再相加到全局特征上

在这里插入图片描述
网络结构:

  1. LGD-2D: 一整段视频,使用sparse sampling,均匀在整段视频中采样帧,每张使用2D方法
  2. LGD-3D: 密集采样,在集中的几帧中使用3D卷积操作。
    最后两个网络可以combine使用在这里插入图片描述
    使用block后,性能有所提升,全局视野有带来作用。
    浅蓝色为没有加全局信息,具有全局信息的橙色loss下降更快,也表现了全局视野的好处
    表格中Com是Combine两个网络

在这里插入图片描述
Kinetics400 和Kinetics600两个网络中,LGD性能识别效果最好
同时可以看出,在小数据集和动作检测问题也都有很高准确度,迁移性较好
结论:
1.LGD结构成功的将Global和Local信息相结合,提高性能
2. P3D和LGD在计算量上并没有显著提高,非常经济

Arixiv2019成果
视频数据中网络结构自动搜索:

在这里插入图片描述

在这里插入图片描述
Normal Cell 指的是时域空间域上维度不发生变化
ST-Reduction指的是时域空间域都降低维度的模块

在这里插入图片描述

图像上我们使用Cifar10数据集进行网络结构的搜索,再transform到Imagenet
视频中我们挑出一部分组成Kinetics10数据集,与Cifar-10规模相近,
Separable-3d卷积操作:深度空间卷积再加上空间卷积,由此我们构建出三个操作集

在这里插入图片描述
检索方法:

  1. 使用梯度下降来优化网络结构。前驱操作将每个边都进行连接,训练权重,使用验证集选择最优的连接。
    缺点:先训练再挑选,训练时间长
  2. 我们选用的方法:训练过程中某项操作超过其他操作很多,则提前固定局部的操作,之后的训练以此条边为准。

在这里插入图片描述
栗子:训练刚开始时,每条边会使用所有操作并行的计算。随着epoch增大,逐渐确定一些边的连接

在这里插入图片描述
cifar10和ImageNet上的对比实验
相比DAS,训练时间更少,更低的test error

在这里插入图片描述
使用这种检索方式,应用到视频数据中
和常见网络结构相比,参数数量和性能都有提高。
右上的表格也显示Kinetics10上的实验提升较大
在这里插入图片描述

第二部分 ,具体项目中网络结构

ActivityNet Challenge2019
动作识别:

在这里插入图片描述

在这里插入图片描述
系统包含三个部分,并行插入时域卷积,LGD部分插入全局网络

在这里插入图片描述

TCP网络对10s视频提取20个特征,只使用一次Poingwise卷积

在这里插入图片描述
Tree stream: audio声音部分提取频谱图,使用2D方法做分类

在这里插入图片描述
Single stream时
Xception结构中,加大Clip 或者利用级联网络可以提高网络性能。加大clip与级联二者提高程度相近

在这里插入图片描述
不同stream-fusion上,还是不可或缺的过程。
声音信息的加入可以带来1%的提高。

CVPR2019成果
动作定位: 长视频中找到动作发生的起始点和终止点

在这里插入图片描述

在这里插入图片描述
传统方法:一维卷积
缺点:不能动态的感受时间更长的动作,因而使用高性能Kernel
我们的方法:
特征提取,视频序列变成特征序列
不同尺度上,预测出不同的sigma 得到不同大小Kernel

ACMMM2019成果

动作定位:
时间上定位,还要定位动作在空间中的位置
在这里插入图片描述
在这里插入图片描述

通过short-tern 和long-term分别建模。
short-term上,切成短clip,检测每个人的bounding box ,然后找到Tubelet
long-term方面,不同clip之间,同一个物体共同判断,把同一个人merge起来

在这里插入图片描述
总结:

  1. 视频特征理解数据集规模变大,因而模型能学到更好的特征。
  2. 伪三维、局部全局信息、自动设计网络三方面的工作
  3. 对更多的任务:网络设计也针对不同任务的有所倾向
  4. 其他流行的视频理解任务

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值