You Only Watch Once:实时人体动作定位网络

点击我爱计算机视觉标星,更快获取CVML新技术


今天跟大家介绍一篇YOLO风格浓郁的论文,来自慕尼黑工业大学的学者受人类视觉的启发,提出一种快速实时的视频动作定位方法You Only Watch Once(YOWO),达到了目前最好的效果,而且代码将开源。

下面为作者信息:

视频动作定位是在视频中定位出正在执行动作的主体并识别出动作的问题。

请看下面这幅动图:

很显然该问题包括:在多帧中定位主体和动作分类。

在对关键帧(当前帧)进行动作分类时,很显然要考虑之前的数据。

作者提出的算法正是在这一观察下,结合3D-CNN 提取时空信息和2D CNN 提取位置信息再特征融合,并参考YOLO检测方法提出来的。

不同于以往类似Faster R-CNN两阶段方法,先生成大量proposals,再进行分类和位置提精,YOWO在一个网络中实现了时空信息的提取和融合,易于训练,精度高,而且速度也很快。

算法架构

下图为YOWO从数据输入到输出的整个过程:

使用3D CNN对视频片段提取时空信息,使用2D CNN对关键帧提取空间信息,对得到的两部分特征进行注意力机制和通道融合(CFAM)的特征聚合,后面的过程与YOLO一样,卷积后进行分类和包围框回归。

作者提出的CFAM特征聚合方法:

开始处,红色和深蓝色代表前一阶段的两个分枝的特征拼合在一起。

实验结果

作者在UCF101-24 和 J-HMDB-21数据集上进行了实验,验证了算法各部分的有效性,并在与state-of-the-art算法的比较上,取得明显的精度改进。

上图展示了在两种度量标准下,作者提出的算法各部分都取得了精度增益。

在两个数据集上与SOTA算法的结果比较:

在Frame-mAP的度量标准下,YOWO达到了更高的精度,分别比之前的最好结果提高了3.3 和12.2 个百分点。

与其他算法相比,速度更是一大亮点:

在Titan xp GPU上,YOWO 可达到 62 fps!

以下是作者给出的一些结果:

这个问题还是蛮有意思的,把YOWO用在“打架识别”,应该很有前途^_^

论文地址:

https://arxiv.org/pdf/1911.06644.pdf

项目地址:

https://github.com/wei-tim/YOWO

(还未开源,但已经引起了很多人关注!)


动作定位识别交流群

关注最新最前沿的人体工作检测、识别、定位技术,扫码添加CV君拉你入群,(如已为CV君其他账号好友请直接私信)

(请务必注明:动作)

喜欢在QQ交流的童鞋,可以加52CV官方QQ群:805388940。

(不会时时在线,如果没能及时通过验证还请见谅)


长按关注我爱计算机视觉

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值