CVPR2021 Tutorial & Workshop 调研

最新推荐文章于 2023-06-10 18:48:11 发布

清欢守护者

最新推荐文章于 2023-06-10 18:48:11 发布

阅读量1k

点赞数

分类专栏： CV

本文链接：https://blog.csdn.net/irving512/article/details/118346212

版权

CV 专栏收录该内容

98 篇文章 21 订阅

订阅专栏

文章目录

0. 前言

CVPR2021官网
- Tutorials列表
- Workshops列表
只关注我自己感兴趣的课题
- 视频理解方向
- 嵌入式设备模型部署

Mobile Visual Analytics: A CVPR 2021 Tutorial

资料：
- Tutorial 官网
- 完整视频（油管）
主要内容：
- 方向移动端模型部署相关
- 介绍两个方向的内容
  - methods that can accelerate AI algorithms run for computational resource-constrained devices，即轻量化模型设计
  - techniques that can leverage the contextual information under dynamic environments for mobile devices，即利用上下文信息（如时间序列上的冗余信息）来减少算力消耗
- 包括三个讲座
  - Convolutional Networks for Mobile Applications：移动端卷积神经网络的设计以及动态CNN的应用。
  - Generative Adversarial Network for Mobile Applications：GAN 在移动端的应用。
  - Context-aware Mobile Visual Analysis：前面两个讲座的内容主要关注网络本身的设计，而没有冲分关注前景、背景变换等具体应用现状，期望利用时间维度上的冗余信息看，减少推理时的算力消耗
讲座一浏览（只看了PDF没看视频）
- 主要介绍了现有的CNN结构、移动端CNN设计思路、以及Dynamic CNNs for mobile applications。第三部分最重要，其他的其实就是以前论文的一些概述，所以后面主要介绍第三部分的内容。
- 为什么需要Dynamic CNN
  - 如果看Accuray-Time Tradeoff图表就可以发现，精度与算力并不是线性增强，而是随着精度提升，所需算力则是有点指数爆炸提升。
  - 对于难度大的场景、图片，需要大模型；难度小的图片、场景，小模型就够用了。
  - 换句话说，不同的输入使用不同的模型。
- 分类：可分为 Sample-wise/spatial-wise/temporal-wise 三个部分。
- Sample-wise Dynamic Networks：其实就是对原有网络的各种剪裁，比如利用中间特征图连接分类器、减少channel、width的数量等。
- Spatial-wise Dynamic Networks：选择图片的一部分区域作为模型的真正输入，毕竟图片中有很多冗余信息，包括 pixel-level/region-level/resolution adaptation，region-level主要就是介绍本论文。
- temporal-wise就是视频理解领域，介绍了一个TSN就没说别的了。
- 原来原有相关论文，以及配图。

讲座三浏览
- 即 Context-aware Mobile Visual Analysis，主要就是介绍了几个具体问题
- 问题一：Context-aware Object Motion Estimation
  - 移动摄像头拍摄的视频，判断视频中的物体是否移动。
  - 现有问题：目标检测无法判断是否移动，motion detection无法判断物体类别与bbox，motion detection无法识别静止的物体
- 问题二：Context-aware Domain Adaptive Object Detection，总体上就是提出几个问题，每个问题有一篇对应的论文。
  - 场景稍微改变后，训练好的模型效果就急速下降。
- 问题三：Context-aware Dynamic Pedestrian Intrusion Detection
- 问题四：Context-aware Rapid Semantic Segmentation

2nd Comprehensive Tutorial on Video Modeling

资料：
- Workshop 官网
- 2020 CVPR Workshop 官网
- 源码可以参考 GluonCV
CVPR2021 的分享内容包括（没有slides）
- 多模态
- 细粒度行为识别
- 长视频特征提取
- Leveraging Motion in Videos（这个不知道是啥，要看下视频）
- Efficient and Compositional Human Event Understanding（这个视频后续可能会看一下）
CVPR2020 分享的内容包括（有slides）
- 视频行为识别概述
- 按时间介绍视频理解的各种SOTA
- 视频解码器Decord介绍（没介绍原理，只介绍使用）
- 视频理解模型部署（没啥内容，就是说可以用mxnet和tvm进行模型部署）
- AWS实践
- Structured Representations for Video Understanding（不知道是啥）
- 后续浏览2020的slides，挑一些内容放一放
行为识别模型按时间顺序划分

Affective Understanding in Video

资料
数据集简介
- 相关论文
- 记录标注者看指定视频时的情感
- 感觉这个数据集的总体作用就是用在推荐系统中，了解视频给人的感觉，方便推荐。
- 看的视频来自youtube，没有给原始视频，只给了youtube id
- 记录的感情的频率是6Hz，感情的种类有15个，感情识别是使用了一个模型（好像没提模型的具体情况）
- 数据集以txt的形式保存，每行代表某个视频的某个时间点，前两列分别是 Youtube id 以及时间戳（milliseconds，微秒），后面列就是感情名称
- 感情列表如下：amusement,anger,awe,concentration,confusion,contempt,contentment,disappointment,doubt,elation,interest,pain,sadness,surprise,triumph
相关论文参考这里
- 前两名的方案有代码和论文

Large scale holistic video understanding

资料
- Workshop官网
- 竞赛
也就是HVU数据集
有视频（没有拆分），没有slides，因为内容是我比较感兴趣的，记录下感兴趣的部分，看看之后没有有空看看。
- IntegralAction: Pose-driven Feature Integration for Robust Human Action Recognition in Videos
  - 利用骨架数据，整合特征，实现行为识别
- Rethinking Training Data for Mitigating Representation Biases in Action Recognition
- ObjectGraphs: Using Objects and a Graph Convolutional Network for the Bottom-up Recognition and Explanation of Events in Video
- Unidentified Video Objects: A Benchmark for Dense, Open-World Segmentation
- Parameter Efficient Multimodal Transformers for Video Representation Learning：多模态

The Eighth International Workshop on Egocentric Perception, Interaction and Computing

资料
- Workshop官网
- 视频
主要内容：第一人称感知、交互、计算
有视频，没剪裁，讲话就是一系列论文介绍，可参考这里

International Challenge on Activity Recognition (ActivityNet)

资料
- Workshop官网
- programs
讲座还挺多，有slides以及B站视频
有slides的讲座有3场（官网上面显示4场，但有一场的slides无法下载）
- 分别介绍视频预测、多模态和 TimSFormer

其他

Mobile AI：视频时间很长，没有拆分，没有slides，介绍了很多一些运行在手机上的模型。
Robust Video Scene Understanding: Tracking and Video Segmentation：目标跟踪与分割相关，有竞赛
2021 ChaLearn Looking at People Sign Language Recognition in the Wild：手语识别
- 这个网址里有很多其他workshop和challenge
AI City：竞赛都很有意义，好几年了
- 车辆跨摄像头跟踪、重识别，交通异常检测，移动设备车辆计数
- 数据要申请