R-CNN for Pose Estimation and Action Detection

最新推荐文章于 2024-04-13 09:39:03 发布

Qiang__zi

最新推荐文章于 2024-04-13 09:39:03 发布

阅读量1.4k

点赞数

分类专栏： Deep learning

Deep learning 专栏收录该内容

31 篇文章 0 订阅

订阅专栏

R-CNN 用于姿态估计和动作检测

Gkioxari G, Hariharan B, Girshick R, et al. R-CNNs for Pose Estimation and Action Detection[J]. Computer Science, 2014.

摘要：本文提出使用卷积神经网络进行关键点（姿势）预测和无约束图片中人的行为分类。我们的方法包括根据正在处理的任务的损失函数训练一个R-CNN检测器，我们在有挑战性的PASCAL VOC数据集上评估我们的方法，并将其与以前的主要方法进行比较。我们的方法得出了关键点和行为预测的最好的结果。此外，我们引入一个行的数据集进行动作检测，使用我们的方法同时进行人物定位和动作的分类并展示结果。

1.Introduction

本文中我们研究了深度学习方法对于姿态估计和行为分类的问题，我们工作建立在R-CNN [12]对象检测框架上，通过为每个任务训练卷积神经网络（CNNs）。

R-CNN是一种单一的方法，因为它训练一个单分量检测器。这与以前的对象检测中的技术方法不同，例如DPM【9】，其中使用多个分量和潜在部分模型或poselets[4,14],其中有监督的部分检测器整体的组合可以做出更好的目标和关键点的预测。

像R-CNN一样，我们的方法将对象建议作为输入。然而，除了预测对象类（人与非人）之外，我们的方法还对该人的姿势和动作进行了得分估计的预测。对于姿态估计的任务，我们的系统为每个对象建议框输出一组具有关键点分数的的集合。这些预测通过独立的对每一个关键点的AP进行衡量从而在一个检测集合上被评估[26]。我们的方法在PASCAL VOC 2009人检测值数据集1上获得15.2％的平均AP，这是相对于先前的[12]平均AP为12.7％的提升。对于动作分类的任务，对于每个建议框的得分与动作预测相关联。独立的评估每个动作的AP。我们的方法在PASCAL VOC行动测试集上进行动作分类的mAP达到70.5％并稍好于以前的领先方法[20]（70.2％）也使用CNN。

用于评估动作分类的标准方法（上面报告的）假定在测试时给出地面实况对象位置，并且一个仅需要输出动作标签。在测试时间对地面实况的了解使得这个任务对于现实世界的应用来说是不现实的。因此，我们介绍一个新的任务，我们称之为行动检测。在动作检测中，在测试时不能获得地面实况，因此期望一种方法来预测人的位置和正在执行的动作。评估遵循标准AP度量。直观地，可以将此任务想象为引入由（人，动作）对定义的新对象类别，然后将标准PASCAL VOC对象检测评估[8]应用于这些新类别，我们考虑R-CNN的这个度量的几个变体，并比较它们的性能。

3. A Single Convolutional Neural Network for Multiple Tasks

在这项工作中，我们使用一个单独的CNN为多个任务联合训练。图1示出了多任务CNN的示例。每个任务都与损失函数相关联。我们提出人检测、姿态估计和行动分类损失函数。

person detection：

如果预测的和地面真实边界框的交点超过阈值（通常为0.5），则检测被认为是正确的。在用于人检测的任务的R-CNN微调期间，如果区域x在图像中与地面真实人重叠超过0.5，则区域x为正（l = 1），如果区域x重叠少于0.3则区域为负（l=0）。所有其他地区不考虑。 CNN的输出y = [p 0，p 1]是二维概率向量，其中p 1表示x是人的概率，p 0 = 1-p 1。与人员检测任务相关联的损失是对数损失.

与人员检测任务相关联的损失是对数损失：

pose estimation：姿态估计是预测人体中特定关键点的位置的任务。如果关键点的位置的估计与地面约束框的交集超过了阀值则认为预测是正确的。在用于姿态估计的任务的R-CNN微调期间，与图像中的实例重叠超过0.5的区域x伴随有一组| K | 关键点（x，y）位置和可见性标志，{（x k，y k，v k）} k = 1，属于该实例。关键点位置相对于区域的中心，宽度和高度被归一化。

Qiang__zi

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
R-CNN for Pose Estimation and Action Detection

R-CNN 用于姿态估计和动作检测Gkioxari G, Hariharan B, Girshick R, et al. R-CNNs for Pose Estimation and Action Detection[J]. Computer Science, 2014.摘要：本文提出使用卷积神经网络进行关键点（姿势）预测和无约束图片中人的行为分类。我们的方法包括根据正在处理的
复制链接

扫一扫