行为识别 - A Comprehensive Study of Deep Video Action Recognition

0. 前言

  • 相关资料:
    • arxiv
    • github(GluonCV也不得不开始支持PyTorch啦,对我来说是好事)
    • 论文解读
  • 论文基本信息
    • 领域:行为识别
    • 作者单位:亚马逊
    • 发表时间:2020.12
  • 一句话总结:从数据集、模型的角度介绍行为识别的发展历程,提供了代码库,探讨了当前的挑战,展望了未来发展趋势。

1. 数据集概述

1.1. 看图说话

  • 过去10年行为识别数据集概述

    • 横坐标是年份
    • 纵坐标是label的数量(log级别)
    • 源泉的大小是样本数量。
  • image-20201216194615580

1.2. 数据集概述

  • 数据集构建流程

    • 确定行为类别(从之前的数据库中获取,并根据自己的需求添加)
    • 从各个渠道获取视频,例如youtube,一般是在视频的标题中有行为类别名称。
    • 手动标注行为的起止时间。
    • 最后进行数据清洗(去除重复标注、错误标注等)
  • 挑战

    • 挑战一:确定行为类别非常麻烦、非常重要。
      • 原因在于:人类行为是非常复杂的概念,而且没有良好的层级结构。
      • 我自己的理解:行为类别与图片类别的主要区别在于,行为类别属于动词动名词
        • 动词本身就非常复杂,有些动词存在一词多义的现象。比如“做”,这个字的意思就非常多,做手术、做手表等等。英文中的take/play啥的,也是很麻烦,很难明确定义。
        • 动名词就更复杂了,比如“拿起物品”这个动作,到底拿起手机和拿起水杯算不算一类行为呢?一些场景下属于,一些场景下不属于。
        • 而图片分类的目标是“名词”,这一般就比较好分类,也有较好的层级结构。
    • 挑战二:视频标注相当麻烦
      • 需要看整段视频(不像图片,速度快得多)
      • 标签很多时候非常模糊,比如对于动作起始/终止位置的确定,也许每个人都有不同的意见。
    • 挑战三:数据集本身获取非常困难。
      • 数据集都只给链接,需要自己下载,可能每个人能拿到的数据集都不太一样,所以模型比较起来也不是特别的公平。
      • 啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊啊,真的是感同身受。我现在属于苦尽甘来了,刚开始的时候真的痛苦。
  • 数据集分类

    • Scene-focused datasets:视频长度很短,且可以通过静态情境来判断行为本身,比如Kinetics-400/UCF101/HMDB51等
    • motion-focused datasets:背景信息很少,对行为本身的帮助也不大,包括从左到右从右到左等类别,需要很强的运动信息。
    • 多标签数据集:有更多标签,比如提供了bbox以及object标签。

1.3. 具体数据集概述

  • 这里不介绍了,自己其实有单独的笔记记录这些数据集的情况
    • HMDB51、UCF101、Sports1M、ActivityNet、YouTube8M、Charades、Kinetics、Something-Something、AVA、Moments In Time、HACS、HVU、AViD

2. 模型发展

2.1. 看图说话

  • image-20201216194748846
  • image-20201221163804288

2.2. 模型概述与挑战

  • 挑战(对于视频数据建模的挑战)
    • 挑战一:人类行为存在非常大的 intra- and inter-class variations
      • 同一类行为之间的差距非常大,不同行为之前的差距也非常大
      • 同一动作可以从不同角度、不同速度来进行。
      • 有一些行为有非常类似的动作趋势,非常难以区分。
    • 挑战二:对于行为的建模必须同时对短期动作信息与长期时间信息进行建模
      • both short-term action-specific motion information and long-range temporal information
    • 挑战三:模型训练与推理需要的计算量都非常大。

2.3. 模型的发展

  • 手工特征(hand-crafted features):这个我不太关心,就没细看

  • 双流法(two-stream networks)

    • 光流(optical flow)是一种用于描述物体、场景运动方式的表示方式(motion representation)
      • 能够很好的描述运动特征(motion pattern)。
      • 相比于RGB图像,能够提供更加直接的信息(orthogonal infomation)。猜测意思是,不太考虑context信息,更多考虑动作本身。
    • 双流法有一个所谓的“双流假设”(two-streams hypothesis):大脑中的视觉皮层(visual cortex)包含两个通道,dorsal stream(实现目标检测)和dorsal stream(实现行为检测)
    • RNN相关算法:基本就是cnn backbone加上LSTM及其变种。
    • Segment-based 相关算法:比如TSN/TSM,以及基于这些的时序行为检测方法TRN。
    • 多模态数据:比如加上声音、深度学习、骨架信息等。
  • 3D模型

    • 直接扩展2D模型为3D模型,比如C3D
    • 叠加2D与3D模型,比如R2+1D
    • Long-range temporal modeling(不知道咋翻译,长期时间建模?):普通行为识别都是对短期数据进行建模,长期数据建模有一些方法,比如T3D/LTC,作者把non-local也放在这一部分,没看懂。
    • 3D模型的变种,比如X3D/A3D
  • 探索更高效的视频建模方式

    • 问题:
      • 对于Kientics-400,如果构建光流需要4.5T的空间保存……
      • 3D模型部署比较困难(没有2D支持的好)
      • 3D模型需要更多IO性能。
    • 探索“模拟光流”的方法
      • 双流发需要预先计算光流,这是一个很大的限制。
      • 有一些方法,比如MotionNet、PAN等都是模拟光流的方法。
    • 探索不需要3D卷积的时间建模方法,一般都是一些新结构,比如TSM/TIN/STM/TEA/TEINet等
  • 其他研究

    • 基于轨迹的方法
    • 基于rank pooling的方法(使用类似于LTR的方法来进行建模),但看论文好像都是早期的(2017之前)。
    • Compressed video action recognition:视频编码中,I帧是关键帧,P/B帧都不是关键帧,可能可以从这里入手,有一些使用了知识蒸馏的方法。各种Sampler方法可能可以归于这一类,比如SCSampler
    • 视频帧提取方法:frame/clip sampling相关,即一般方法认为所有输入帧都有相同的权重,但其实不应该是这样。Sampler相关的也可以归于这一类。
    • Visual tempo:描述动作有多快,比如CIDC/TPN

3. 性能指标与结果展示

  • 一般对比准确率、fps。
  • image-20201221163652544
  • image-20201221163712532

4. 其他研究方向

  • 数据增强:有论文说color jitter和随机翻转有一些效果,其他的没有验证过。
  • domain adaptation(迁移学习的一种)
  • 神经网络搜索(NAS):肉食者谋之,又何间焉
  • 高效模型部署(部署到现实场景中比较困难,应该指的是监控场景):
    • 主要存在的问题:
      • 大多数模型都是在offline的状态下设计训练的,即每次拿到的都是一段视频,而不是在线视频流。
      • 大多数模型不能实时运行。
      • 3D以及其他非标准op很难部署。
    • 很多2D相关技术可以应用到行为识别中,比如模型压缩、量化、剪枝等等。
    • 可能需要更好的数据集以及更合适的性能指标来。
    • 可能可以使用压缩视频来进行,毕竟大多数视频已经被压缩过了。
  • 新数据集:
    • 现有的大多数数据集都是偏向于空间信息,即通过一张图片就能判断行为类别,而不需要动态信息。
    • youtube不允许单个id下载大量数据……哭了
  • 视频对抗攻击
  • Zero-shot learning
  • 弱监督学习
  • 细粒度分类
  • 第一视角行为识别
  • 多模态
  • 自监督学习
  • 3
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 10
    评论
### 回答1: Action-net是一种用于动作识别的多路径激励模型。它通过同时考虑多个视角和多个时间尺度的信息,提高了动作识别的准确性。模型的核心是一个多路径卷积神经网络,它可以从不同的视角和时间尺度提取特征。此外,模型还使用了一种新的激励机制,可以增强不同路径之间的信息交互,从而进一步提高了准确性。 ### 回答2: Action-Net是一个用于动作识别的多路径激发(Multipath Excitation)模型。动作识别是计算机视觉领域的一个重要任务,旨在从视频中自动识别和分类不同的动作。Action-Net通过采用多路径激发方法,提高了动作识别的准确性和性能。 多路径激发是一种模型设计技术,通过在网络架构中引入多个并行路径,每个路径分别学习不同的特征表示进行动作识别。这样的设计可以捕获到不同级别、不同尺度和不同分辨率的特征信息,提供更加全面准确的动作表示。 Action-Net利用了深度神经网络的强大表达能力,将视频输入分为多个时间段或空间尺度,并在每个时间段或空间尺度上构建不同的网络路径。每个路径在不同的时间尺度或空间分辨率上学习不同的特征表示,这些特征表示可以捕捉到动作的关键信息。 通过引入多路径激发机制,Action-Net可以同时学习到描述全局结构和细节特征的表示。此外,多路径激发还可以减轻网络在学习过程中的过拟合问题,提高了模型的泛化能力。 在实验中,Action-Net在各种动作识别任务上取得了优秀的性能。与传统的单一路径模型相比,Action-Net的准确性有了显著提升。多路径激发不仅可以用于动作识别,还可以应用于其他计算机视觉任务,如目标检测和图像分割。 综上所述,Action-Net是一种基于多路径激发的动作识别模型,通过引入多个并行路径学习不同的特征表示,提高了动作识别的准确性和性能。它具有较强的表达能力和泛化能力,在计算机视觉任务中有着广泛的应用前景。 ### 回答3: "action-net: multipath excitation for action recognition"是一种用于行为识别的多路径激励模型。 行为识别是计算机视觉中的一项重要任务,它旨在通过分析视频或图像序列来识别和理解人类的动作或行为。为了更好地解决这个问题,研究人员提出了许多方法,其中一个方法就是使用深度神经网络。 "action-net: multipath excitation for action recognition"是一种基于深度神经网络的模型,它通过多路径激励的方式来增强行为识别的性能。多路径激励是指通过引入多个并行的路径,每个路径都具有不同的特征提取能力,以捕捉不同方面的行为特征。 在"action-net"模型中,每个路径都是一个独立的卷积神经网络,这些网络在不同尺度和层次上进行特征提取。每个网络都通过激励机制来增强其对特定行为特征的敏感性。这种激励机制可以使网络在学习时集中注意力于关键的特征,提高行为识别的准确性。 通过多个路径的组合,"action-net"模型能够充分利用不同尺度和层次的特征信息,增强行为识别的鲁棒性和泛化能力。此外,多路径激励还能够有效地缓解过拟合问题,提高模型的泛化能力。 总之,"action-net: multipath excitation for action recognition"是一种基于深度神经网络的行为识别模型,通过多路径激励的方式有效地提高了行为识别的性能。它能够捕捉不同尺度和层次的行为特征,提高模型的鲁棒性和泛化能力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值