CVPR2021 Tutorial & Workshop 调研

0. 前言

Mobile Visual Analytics: A CVPR 2021 Tutorial

  • 资料:

  • 主要内容:

    • 方向移动端模型部署相关
    • 介绍两个方向的内容
      • methods that can accelerate AI algorithms run for computational resource-constrained devices,即轻量化模型设计
      • techniques that can leverage the contextual information under dynamic environments for mobile devices,即利用上下文信息(如时间序列上的冗余信息)来减少算力消耗
    • 包括三个讲座
      • Convolutional Networks for Mobile Applications:移动端卷积神经网络的设计以及动态CNN的应用。
      • Generative Adversarial Network for Mobile Applications:GAN 在移动端的应用。
      • Context-aware Mobile Visual Analysis:前面两个讲座的内容主要关注网络本身的设计,而没有冲分关注前景、背景变换等具体应用现状,期望利用时间维度上的冗余信息看,减少推理时的算力消耗
  • 讲座一浏览(只看了PDF没看视频)

    • 主要介绍了现有的CNN结构、移动端CNN设计思路、以及Dynamic CNNs for mobile applications。第三部分最重要,其他的其实就是以前论文的一些概述,所以后面主要介绍第三部分的内容。
    • 为什么需要Dynamic CNN
      • 如果看Accuray-Time Tradeoff图表就可以发现,精度与算力并不是线性增强,而是随着精度提升,所需算力则是有点指数爆炸提升。
      • 对于难度大的场景、图片,需要大模型;难度小的图片、场景,小模型就够用了。
      • 换句话说,不同的输入使用不同的模型。
    • 分类:可分为 Sample-wise/spatial-wise/temporal-wise 三个部分。
    • Sample-wise Dynamic Networks:其实就是对原有网络的各种剪裁,比如利用中间特征图连接分类器、减少channel、width的数量等。
    • Spatial-wise Dynamic Networks:选择图片的一部分区域作为模型的真正输入,毕竟图片中有很多冗余信息,包括 pixel-level/region-level/resolution adaptation,region-level主要就是介绍本论文
    • temporal-wise就是视频理解领域,介绍了一个TSN就没说别的了。
    • 原来原有相关论文,以及配图。

image-20210629154630044

  • 讲座三浏览
    • 即 Context-aware Mobile Visual Analysis,主要就是介绍了几个具体问题
    • 问题一:Context-aware Object Motion Estimation
      • 移动摄像头拍摄的视频,判断视频中的物体是否移动。
      • 现有问题:目标检测无法判断是否移动,motion detection无法判断物体类别与bbox,motion detection无法识别静止的物体
    • 问题二:Context-aware Domain Adaptive Object Detection,总体上就是提出几个问题,每个问题有一篇对应的论文。
      • 场景稍微改变后,训练好的模型效果就急速下降。
    • 问题三:Context-aware Dynamic Pedestrian Intrusion Detection
    • 问题四:Context-aware Rapid Semantic Segmentation

image-20210629162920563

2nd Comprehensive Tutorial on Video Modeling

  • 资料:

  • CVPR2021 的分享内容包括(没有slides)

    • 多模态
    • 细粒度行为识别
    • 长视频特征提取
    • Leveraging Motion in Videos(这个不知道是啥,要看下视频)
    • Efficient and Compositional Human Event Understanding(这个视频后续可能会看一下)
  • CVPR2020 分享的内容包括(有slides)

    • 视频行为识别概述
    • 按时间介绍视频理解的各种SOTA
    • 视频解码器Decord介绍(没介绍原理,只介绍使用)
    • 视频理解模型部署(没啥内容,就是说可以用mxnet和tvm进行模型部署)
    • AWS实践
    • Structured Representations for Video Understanding(不知道是啥)
    • 后续浏览2020的slides,挑一些内容放一放
  • 行为识别模型按时间顺序划分

image-20210629164639863

Affective Understanding in Video

  • 资料

  • 数据集简介

    • 相关论文
    • 记录标注者看指定视频时的情感
    • 感觉这个数据集的总体作用就是用在推荐系统中,了解视频给人的感觉,方便推荐。
    • 看的视频来自youtube,没有给原始视频,只给了youtube id
    • 记录的感情的频率是6Hz,感情的种类有15个,感情识别是使用了一个模型(好像没提模型的具体情况)
    • 数据集以txt的形式保存,每行代表某个视频的某个时间点,前两列分别是 Youtube id 以及时间戳(milliseconds,微秒),后面列就是感情名称
    • 感情列表如下:amusement,anger,awe,concentration,confusion,contempt,contentment,disappointment,doubt,elation,interest,pain,sadness,surprise,triumph
  • 相关论文参考这里

    • 前两名的方案有代码和论文

Large scale holistic video understanding

  • 资料
  • 也就是HVU数据集
  • 视频(没有拆分),没有slides,因为内容是我比较感兴趣的,记录下感兴趣的部分,看看之后没有有空看看。
    • IntegralAction: Pose-driven Feature Integration for Robust Human Action Recognition in Videos
      • 利用骨架数据,整合特征,实现行为识别
    • Rethinking Training Data for Mitigating Representation Biases in Action Recognition
    • ObjectGraphs: Using Objects and a Graph Convolutional Network for the Bottom-up Recognition and Explanation of Events in Video
    • Unidentified Video Objects: A Benchmark for Dense, Open-World Segmentation
    • Parameter Efficient Multimodal Transformers for Video Representation Learning:多模态

The Eighth International Workshop on Egocentric Perception, Interaction and Computing

  • 资料
  • 主要内容:第一人称感知、交互、计算
  • 有视频,没剪裁,讲话就是一系列论文介绍,可参考这里

International Challenge on Activity Recognition (ActivityNet)

  • 资料
  • 讲座还挺多,有slides以及B站视频
  • 有slides的讲座有3场(官网上面显示4场,但有一场的slides无法下载)
    • 分别介绍视频预测、多模态和 TimSFormer

其他

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值