论文分析A Key Volume Mining Deep Framework for Action Recognition

行为识别的意义

难题所在

Action Recognition 是计算机视觉中比较难的一个问题。因为:

  1. 不同人完成同一种动作的方式有很大差异。比如同样是挥手,有些人举得很高幅度很大,有些人动作很矜持;
  2. 同一种动作往往会有很多亚类。收集数据时候,很难为每一个亚类都收集足够的训练样本。比如拳击就可以包括上勾拳,平勾拳,斜勾拳等众多亚类。
  3. 数据很难收集。这是因为视频的精细标注(标注每个动作发生的时空位置)工作量远大于图像标注,目前学术界研究 Action Recognition 的数据集要么太小,要么标注太粗糙,甚至完全是基于文本关键词自动归类的,而没有人工的检验。

数据集的难处

我们既不知道做动作的人在什么空间位置,也不知道真正的动作发生的精确时间位置。更糟糕的是,和动作类别直接相关的,具有区分性的 (discriminative)key volume 往往占比非常小。

于是我们就想能否先把这些 key volume 找出来,直接用以训练分类器,这样可以免受噪声数据的干扰,更加聚焦在动作本质上。但实际上,在得到一个好的分类器之前我们是很难自动地将 key volume 挑出来的。于是我们陷入了一个鸡生蛋,蛋生鸡的困境。

借鉴 Multiple Instance Learning 多目标实例学习 的思想,我们把鸡和蛋的问题放在一起来优化解决:在训练分类器的同时,挑选 key volume;并用挑出来的 key volume 更新分类器的参数。这两个过程无缝地融合到了 CNN (卷积神经网络) 的网络训练的 forward 和 backward 过程中,使得整个训练过程非常优雅、高效。

实验发现,key volume 基本上就对应于动作时间发生的时空区间。这意味着我们不仅能对动作进行分类,还能粗略地在视频中找到动作发生的实际时空位置。

应用

Action Recognition 在监控中可以用来实时监控甚至预测一些诸如打架头殴、恐怖袭击等危险行为。还可以对海量的监控视频进行分类检索,可以省去很大一部分人力,快速定位到事件发生的时间点

参考资料

Multiple Instance Learning

CVPR 2016|商汤科技论文解析:行为识别与定位

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值