Large Scale Holistic Video Understanding
链接 | PDF DataSet |
---|---|
作者 | Ali Diba1 |
期刊 | CVPR 2019 |
领域 | Video recognition |
输入 | RGB vide |
方法 | 2D/3D ConvNet ; Multitask Learning |
本文为论文的阅读笔记,内容精简,帮助快速理解论文,若有错误望指正!
1、摘要
视频识别
- 目前其他研究局限于人类行为或运动识别-专注于高度特定的视频理解任务
整体视频理解数据集(HVU)
- 通过语义分类将多标签和多任务视频理解作为包含动态场景中多个语义方面的识别的综合问题来关注
整体外观和时间网络(HATNet)
- 采用时空深度神经网络结构
- 通过组合外观和时间的中间表示,将2D和3D架构融合为一个整体
- 专注于多标签、多任务的学习
2、引言
视频识别
- 涉及场景或环境、对象、动作、事件、属性和概念
- 目前研究大多数局限于动作识别
ConvNet的缺点
- (单任务时)不足以描述整个视频的内容
- 阻碍ConvNet学习通用特征表示
HVU
- 提供具有用于视频分析和理解的任务和注释的全面列表的多标签和多任务大规模视频基准
- 282个场景类别、1917个对象类别、882个动作类别、77个事件类别、106个属性类别和193个概念类别
HATNet
- 专注于多标签和多任务学习,用多个方面的语义识别于同时解决多个时空问题
- 通过组合外观和时间信息的中间表示,将2D和3D架构融合为一个整体,产生健壮的时空表示
- 在HMDB51、UCF101和Kinetics数据集上取得了出色的结果
3、相关研究
基于ConvNets的动作识别
- 2D(单个图像级别)
- 3D(K帧的视频剪辑或片断)
- 网络架构的过滤器和汇集内核是3D(x, y, time),即3D卷积(s, s, d),其中d是内核的时间深度,s是内核的空间大小
- 卷积核
- 基于初始化的 I3D
- 模拟可变的时间