文章目录
- 0. 前言
- Mobile Visual Analytics: A CVPR 2021 Tutorial
- 2nd Comprehensive Tutorial on Video Modeling
- Affective Understanding in Video
- Large scale holistic video understanding
- The Eighth International Workshop on Egocentric Perception, Interaction and Computing
- International Challenge on Activity Recognition (ActivityNet)
- 其他
0. 前言
-
只关注我自己感兴趣的课题
- 视频理解方向
- 嵌入式设备模型部署
Mobile Visual Analytics: A CVPR 2021 Tutorial
-
资料:
-
主要内容:
- 方向移动端模型部署相关
- 介绍两个方向的内容
- methods that can accelerate AI algorithms run for computational resource-constrained devices,即轻量化模型设计
- techniques that can leverage the contextual information under dynamic environments for mobile devices,即利用上下文信息(如时间序列上的冗余信息)来减少算力消耗
- 包括三个讲座
- Convolutional Networks for Mobile Applications:移动端卷积神经网络的设计以及动态CNN的应用。
- Generative Adversarial Network for Mobile Applications:GAN 在移动端的应用。
- Context-aware Mobile Visual Analysis:前面两个讲座的内容主要关注网络本身的设计,而没有冲分关注前景、背景变换等具体应用现状,期望利用时间维度上的冗余信息看,减少推理时的算力消耗
-
讲座一浏览(只看了PDF没看视频)
- 主要介绍了现有的CNN结构、移动端CNN设计思路、以及Dynamic CNNs for mobile applications。第三部分最重要,其他的其实就是以前论文的一些概述,所以后面主要介绍第三部分的内容。
- 为什么需要Dynamic CNN
- 如果看Accuray-Time Tradeoff图表就可以发现,精度与算力并不是线性增强,而是随着精度提升,所需算力则是有点指数爆炸提升。
- 对于难度大的场景、图片,需要大模型;难度小的图片、场景,小模型就够用了。
- 换句话说,不同的输入使用不同的模型。
- 分类:可分为 Sample-wise/spatial-wise/temporal-wise 三个部分。
- Sample-wise Dynamic Networks:其实就是对原有网络的各种剪裁,比如利用中间特征图连接分类器、减少channel、width的数量等。
- Spatial-wise Dynamic Networks:选择图片的一部分区域作为模型的真正输入,毕竟图片中有很多冗余信息,包括 pixel-level/region-level/resolution adaptation,region-level主要就是介绍本论文。
- temporal-wise就是视频理解领域,介绍了一个TSN就没说别的了。
- 原来原有相关论文,以及配图。
- 讲座三浏览
- 即 Context-aware Mobile Visual Analysis,主要就是介绍了几个具体问题
- 问题一:Context-aware Object Motion Estimation
- 移动摄像头拍摄的视频,判断视频中的物体是否移动。
- 现有问题:目标检测无法判断是否移动,motion detection无法判断物体类别与bbox,motion detection无法识别静止的物体
- 问题二:Context-aware Domain Adaptive Object Detection,总体上就是提出几个问题,每个问题有一篇对应的论文。
- 场景稍微改变后,训练好的模型效果就急速下降。
- 问题三:Context-aware Dynamic Pedestrian Intrusion Detection
- 问题四:Context-aware Rapid Semantic Segmentation
2nd Comprehensive Tutorial on Video Modeling
-
资料:
- Workshop 官网
- 2020 CVPR Workshop 官网
- 源码可以参考 GluonCV
-
CVPR2021 的分享内容包括(没有slides)
- 多模态
- 细粒度行为识别
- 长视频特征提取
- Leveraging Motion in Videos(这个不知道是啥,要看下视频)
- Efficient and Compositional Human Event Understanding(这个视频后续可能会看一下)
-
CVPR2020 分享的内容包括(有slides)
- 视频行为识别概述
- 按时间介绍视频理解的各种SOTA
- 视频解码器Decord介绍(没介绍原理,只介绍使用)
- 视频理解模型部署(没啥内容,就是说可以用mxnet和tvm进行模型部署)
- AWS实践
- Structured Representations for Video Understanding(不知道是啥)
- 后续浏览2020的slides,挑一些内容放一放
-
行为识别模型按时间顺序划分
Affective Understanding in Video
-
资料
-
数据集简介
- 相关论文
- 记录标注者看指定视频时的情感
- 感觉这个数据集的总体作用就是用在推荐系统中,了解视频给人的感觉,方便推荐。
- 看的视频来自youtube,没有给原始视频,只给了youtube id
- 记录的感情的频率是6Hz,感情的种类有15个,感情识别是使用了一个模型(好像没提模型的具体情况)
- 数据集以txt的形式保存,每行代表某个视频的某个时间点,前两列分别是 Youtube id 以及时间戳(milliseconds,微秒),后面列就是感情名称
- 感情列表如下:
amusement,anger,awe,concentration,confusion,contempt,contentment,disappointment,doubt,elation,interest,pain,sadness,surprise,triumph
-
相关论文参考这里
- 前两名的方案有代码和论文
Large scale holistic video understanding
- 资料
- 也就是HVU数据集
- 有视频(没有拆分),没有slides,因为内容是我比较感兴趣的,记录下感兴趣的部分,看看之后没有有空看看。
- IntegralAction: Pose-driven Feature Integration for Robust Human Action Recognition in Videos
- 利用骨架数据,整合特征,实现行为识别
- Rethinking Training Data for Mitigating Representation Biases in Action Recognition
- ObjectGraphs: Using Objects and a Graph Convolutional Network for the Bottom-up Recognition and Explanation of Events in Video
- Unidentified Video Objects: A Benchmark for Dense, Open-World Segmentation
- Parameter Efficient Multimodal Transformers for Video Representation Learning:多模态
- IntegralAction: Pose-driven Feature Integration for Robust Human Action Recognition in Videos
The Eighth International Workshop on Egocentric Perception, Interaction and Computing
- 资料
- 主要内容:第一人称感知、交互、计算
- 有视频,没剪裁,讲话就是一系列论文介绍,可参考这里
International Challenge on Activity Recognition (ActivityNet)
- 资料
- 讲座还挺多,有slides以及B站视频
- 有slides的讲座有3场(官网上面显示4场,但有一场的slides无法下载)
- 分别介绍视频预测、多模态和 TimSFormer
其他
-
Mobile AI:视频时间很长,没有拆分,没有slides,介绍了很多一些运行在手机上的模型。
-
Robust Video Scene Understanding: Tracking and Video Segmentation:目标跟踪与分割相关,有竞赛
-
2021 ChaLearn Looking at People Sign Language Recognition in the Wild:手语识别
- 这个网址里有很多其他workshop和challenge
-
AI City:竞赛都很有意义,好几年了
- 车辆跨摄像头跟踪、重识别,交通异常检测,移动设备车辆计数
- 数据要申请