论文分析A Key Volume Mining Deep Framework for Action Recognition

在河之洲

于 2016-06-19 12:42:30 发布

阅读量4k

点赞数

分类专栏：计算机视觉与机器学习文章标签：计算机视觉行为识别视频

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhzz2012/article/details/51711809

版权

计算机视觉与机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

行为识别的意义

难题所在

Action Recognition 是计算机视觉中比较难的一个问题。因为：

不同人完成同一种动作的方式有很大差异。比如同样是挥手，有些人举得很高幅度很大，有些人动作很矜持；
同一种动作往往会有很多亚类。收集数据时候，很难为每一个亚类都收集足够的训练样本。比如拳击就可以包括上勾拳，平勾拳，斜勾拳等众多亚类。
数据很难收集。这是因为视频的精细标注（标注每个动作发生的时空位置）工作量远大于图像标注，目前学术界研究 Action Recognition 的数据集要么太小，要么标注太粗糙，甚至完全是基于文本关键词自动归类的，而没有人工的检验。

数据集的难处

我们既不知道做动作的人在什么空间位置，也不知道真正的动作发生的精确时间位置。更糟糕的是，和动作类别直接相关的，具有区分性的（discriminative）key volume 往往占比非常小。

于是我们就想能否先把这些 key volume 找出来，直接用以训练分类器，这样可以免受噪声数据的干扰，更加聚焦在动作本质上。但实际上，在得到一个好的分类器之前我们是很难自动地将 key volume 挑出来的。于是我们陷入了一个鸡生蛋，蛋生鸡的困境。

借鉴 Multiple Instance Learning 多目标实例学习的思想，我们把鸡和蛋的问题放在一起来优化解决：在训练分类器的同时，挑选 key volume；并用挑出来的 key volume 更新分类器的参数。这两个过程无缝地融合到了 CNN （卷积神经网络） 的网络训练的 forward 和 backward 过程中，使得整个训练过程非常优雅、高效。

实验发现，key volume 基本上就对应于动作时间发生的时空区间。这意味着我们不仅能对动作进行分类，还能粗略地在视频中找到动作发生的实际时空位置。

应用

Action Recognition 在监控中可以用来实时监控甚至预测一些诸如打架头殴、恐怖袭击等危险行为。还可以对海量的监控视频进行分类检索，可以省去很大一部分人力，快速定位到事件发生的时间点。

参考资料

Multiple Instance Learning

CVPR 2016｜商汤科技论文解析：行为识别与定位

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。