动作识别01:Understanding action recognition in still images


摘要

静止图像中的动作识别与姿态估计、目标识别、图像检索、视频动作识别和视频帧标记等计算机视觉任务密切相关。这个问题的重点是用单一的框架识别一个人的动作或行为。与视频中的动作识别不同——这是一个相对成熟的研究领域,在该领域使用了时空特征,但这些对静态图像来说是不可用的,这使问题更具挑战性。在目前的工作中,只考虑涉及对象的行为。一个复杂的动作根据语义被分解成多个组件。系统地研究了这些组成部分在动作识别中的重要性。


一、引言

基于视频的动作识别是一个相对成熟的研究领域,而基于静止图像的识别研究相对较少。在过去的几年里,随着社交网络上越来越多的图片,它获得了大量的关注。由于静止图像不易估计运动,且无法利用时空特征来表征动作,因此静止图像中的动作识别一直是一个具有挑战性的问题。虽然在视频中确定动作更加直观和容易,但在静态图像中识别动作是可能的,也是非常有用的。许多动作类别可以在单幅图像中清晰地描述(没有运动或视频信号),这些动作可以根据人的感知很好地理解。对于这样的动作类别,一个帧就足以准确地将动作分类。这一证据支持了静态图像中自动动作分析和识别的计算算法的发展。基于静止图像的动作识别有许多有用的应用。

它可以用于监视、机器人应用、人机交互应用、使用动词注释图像、使用动词搜索图像数据库、基于动作查询在线搜索图像、帧标记、在视频中搜索并理解对象的功能,以及基于视频的活动识别中的视频帧缩减。长视频序列可以减少到更少的帧用于动作表示,从而在不影响准确性的情况下减少冗余信息。

静止图像中动作识别面临的主要挑战是缺乏时空特征、背景杂波、某些动作类的类内方差高、类间方差低、背景光照变化和人的姿态变化。时空特征是表征视频动作的最重要特征。在图像的情况下,时间信息会丢失,这使得表现一个动作变得非常困难。静止图像中的动作识别涉及到其他重要的计算机视觉任务,如物体识别、基于视频的动作识别、姿态估计、场景识别和图像检索。对于图像检索和基于视频的动作识别等任务,基于静止图像的动作识别是初步的步骤。基于静止图像的动作识别结果被用作特征,并根据问题陈述与提取的其他特征相结合。另一方面,目标识别作为动作识别的一个初步步骤。现有的对象检测器通常用于获取图像中所有对象的类标签,它们的共现性被建模并用作基于静态图像的动作识别的特征。其他计算机视觉任务,如姿态估计和场景理解也与静态图像动作识别密切相关。许多论文都使用了对正在执行动作的图像和场景中的人的姿态估计作为动作识别的输入。动作识别模型采用姿态和场景特征进行训练,达到一定的准确率。训练后的静止图像动作识别模型被用作输入,从而实现更精确的姿态估计和场景理解模型。这就形成了一个循环,一个任务用来提高另一个任务的性能。

在这项工作中,只考虑涉及一个人操纵一个物体的动作。目的是将一个动作分解成更小的语义组件,并理解这些组件在动作识别中的重要性。

二、相关工作

人体、身体部位、与动作相关的物体、人与物体的相互作用以及整个场景或上下文是静态图像中人体动作识别中最常用的高级线索。这些线索表征了人类行为的不同方面。Wang等人[18]利用了图像中人体整体粗大的形状。形状表示为通过canny边缘检测器[3]获得的边缘点的集合。形状被用作特征,将图像聚类并标记为不同的动作。身体姿势也是动作识别的重要线索。Ikizler等人[9]使用边缘和区域特征从图像中提取身体姿势,使用条件随机场(CRF)构建可变形模型。Yao等人[20]使用一种随机森林的变体从人体区域搜索有用的、有区别的补丁,用于动作识别。关键补丁信息也以显著图[17]的形式表示。从身体部位提取的Poselets[2],捕捉特定于某些动作的突出身体姿势。在Maji等人[12]和Zheng等人[22]中已经使用基于静态图像的动作识别的波小波分析了身体部位。Raja等人[16]考虑了一个图形模型,该模型包含六个节点,编码五个身体部位的位置和动作标签。人类执行的许多动作都涉及到对象,因此考虑相关的和相关的对象来描述动作是很有用的。Prest等人[15]使用对象性的概念来计算某个补丁成为对象的概率。对象性预测图像补丁是否属于一个对象,而与对象类无关。Yao等人[19]使用了由物体和人体姿势组成的基于部分的模型。相关的对象要么是由人操纵的(例如,骑自行车的人),要么是与动作的场景上下文相关的(例如,草原骑马场景中的草)。属性是对人类行为的语言相关描述。这些部分由物体和人体姿势组成。属性和部分被用作动作基础,在静态图像[8]中为动作建模。在[10]中,Le等人将输入图像分解为可识别的对象,并使用语言模型枚举对象在不同配置下使用时所有可能的操作。一些方法通过模拟物体的共现来表征动作,而另一些方法则将场景信息与物体信息结合起来进行动作识别。

人和对象的配置非常特定于每个动作。除了对象的共现外,人与对象的相互作用可以单独建模。像相对尺寸、相对角度和相对距离这样的特征可以用来描述人与物体的交互。Desai等人[5]使用上下文信息进行动作识别,例如他们的判别模型[6]获得的对象布局。Maji等人[12]学习了静态图像中人边界框和物体边界框之间相对空间位置的混合模型。对于每一种对象类型,他们拟合一个预测边界框的双组分混合模型,以模拟人与对象[8]之间的各种相对位置。由Belongie和Malik[1]提出的Shape Context用于提取和匹配形状特征,用于分割和匹配人体和物体轮廓。GIST或空间包络是由Oliva和Torralba[14]提出的,它是捕捉空间属性的场景的整体表示,用于表示场景和其他特征,以帮助动作识别。

生成模型学习属于不同类的各种操作的分布。Li和Fei Fei[11]使用基于层次结构的生成模型,利用空间和外观特征进行动作识别。Gkioxari等人[7]使用基于fast-CNN的模型来建模人与对象的交互。它们将每一个形象表示为人体动词和宾语的三元组合。他们假设,一个人的外表,比如他们的姿势和动作,有助于定位与他们互动的对象。他们的模型学会联合预测人的行为,人的行为和与人交互的对象在一个端到端系统中被称为交互网。Yu Zhang等人[21]的另一篇论文认为,检测静态图像中的动作并不需要人和物体边界框。他们提出了一种方法,使用VGG网提取CNN特征和高斯混合模型,以最小的注释努力检测图像中的动作。他们将此分为两个部分:使用选择性搜索来查找对象提议和对象部分,并找到人-对象交互部分的详细形状。第二个目标是使用这些交互特性对活动进行预测。


三、实验

由于目前的研究只关注涉及对象的操作,因此创建了一个包含8个类的自定义数据集。这个数据集的图像来自不同的来源。一些动作类的图像直接从现有的数据集中选择,如Stanford 40 action数据集[19]和Willow数据集[4],如果他们有一个人使用一个对象执行一个动作。其他图片从谷歌搜索引擎删除。这个自定义数据集有200张图片,涉及8个动作类别,包括:喝酒、修理、打电话、倒酒、阅读、骑马、坐着和睡觉。

在这个实验中,在MS COCO数据集上训练的YOLO版本2被用来寻找图像中感兴趣的区域,该数据集具有1000个对象类别。一个动作被分解成几个基本部分;人区、对象区、互动区、联合区。YOLO用于检测数据集中每张图像中的人和物体。自定义数据集经过精心构造,以确保只有MS COCO数据集中的对象类别出现在图像中。YOLO检测给出边界框和类标签。如果在一幅图像中检测到多个物体,则考虑IOU(交集大于并集)最高的物人组合。

在这个实验中只使用边界框坐标。类标签信息仅用于记录考虑的对象是否是人。原因是要了解特定操作使用的对象类型。我们对物体本身不感兴趣。目的不是编码动作图像特征向量中对象的共现性,而是在不同的对象类别之间进行归纳,编码它们之间的共同属性,并评价它们在动作分类中的重要性。使用对象类别信息将专注于共现,而不是特定的对象属性。例如,我们不想编码如果图像中有一个沙发和一个人或一把椅子和一个人正在执行的动作是坐着的。相反,我们希望编码一个平面物体和一个人以特定的方式相互作用,因此正在执行的动作是坐着的。

人与物体的边界框坐标用于查找交集区域和并集区域。交集区域关注的是参与动作的对象和人的各部分,是动作的核心。相同的物体与不同的交互作用会导致不同的动作。交集区域表示人与参与动作的物体之间的相互作用。因此,对相互作用进行表征是动作识别的必要条件。联合区域一次聚焦整个行动区域而不考虑背景。交互区域是物体与人边界框的重叠区域,并界框是物体与人边界框的接合区域。如人边界框P的坐标为xp1, yp1, xp2和yp2,物体边界框O的坐标为xo1, yo1, xo2和yo2,则交互区域和并集区域由下式得到。
交边界框I由xi1, yi1, xi2和yi2定义,并集边界框U由xu1, yu1, xu2和yu2定义。利用上述方程和由YOLO生成的物体与人的边界框坐标,得到相互作用边界框和并界框。从经过ImageNet训练的AlexNet中获得的CNN代码(FC7层的激活)从这些区域中提取。每一个组成部分都使用4096维向量来表示,这是从预先训练的CNN中获得的高级特征。这些4096维向量被连接起来表示数据集中的一张图像。分类器根据这些连接的特征进行训练,以执行动作分类。静止图像中的动作识别算法如下。


3.1 定义交互功能

为了对动作组件对之间的空间关系进行编码,引入了自定义交互特性。任意两个动作组件c1和c2之间的相互作用定义如下:

在这里插入图片描述
其中距离(c1, c2)为分量c1和c2的包围盒中心之间的欧氏距离。定义边界框坐标为x1, y1, x2, y2的组件c的边界框的enter为:
在这里插入图片描述

以(cx1, cy1)和(cx2, cy2)为中心的分量c1和c2之间的距离定义如下:

在这里插入图片描述

两个分量c1和c2以(cx1, cy1)和(cx2, cy2)为圆心的夹角定义如下:

在这里插入图片描述

角度特征是一个八维稀疏向量。从0到360的角度被分成8个相等的箱子。角(c1, c2)落入的箱子用1表示,其余的用0表示。例如,如果两个分量之间的夹角是20度,则角度向量将是[1,0,0,0,0,0],如果角度是170度,则角度向量将是[0,0,0,1,0,0]。角度向量使特征向量对稍微不同的姿势更健壮,因为不同的人可能执行不同的动作,但整体姿势保持不变。此外,计算分量中心之间的角度使特征向量旋转不变。任意两个区域中心之间的距离由并域的对角线归一化。联合区域表示图像中发生动作的区域,因此通过联合对角线将距离归一化使特征不随比例变化。

36维自定义交互特性定义如下。自定义特征=[交互(人,物体),交互(人,物体-人相交区域),交互(物体,物体-人相交区域)]。图2说明了这种方法的工作流程。下面列出了本实验中使用的特征组件的组合:
在这里插入图片描述

  • FC7-all components: 这是每个组件的CNN代码(FC7激活)的组合。[人,对象,互动,联合]
  • FC7-all components + custom relative feature: 这是每个组件的CNN代码(FC7激活)和自定义交互/相关功能的组合。[人,物,互动,结合,习俗相关特征]
  • Custom relative feature: 在本例中仅使用36维自定义相对特征。
  • FC7-object: 对象区域的CNN代码。
  • FC7-person: CNN人区代码。
  • FC7-interaction: CNN交互区域代码。
  • FC7-union: union地区的CNN代码。
  • FC7-object + custom relative feature: 对象区域的CNN代码与自定义相对特征连接。
  • FC7-person + custom relative feature: CNN人物区域代码与自定义相关特征相连接。
  • FC7-object + FC-interaction: 对象区域的CNN代码与交互的CNN代码相连接。
  • FC7-person + FC-interaction: CNN人员区域代码与CNN交互代码相连接。
  • conv5-object: 从Alexnet的conv5层提取的对象区域激活。

四、结果

对动作分类的各组成特征组合的结果评价如下。采用支持向量机和逻辑回归进行分类。使用这两种分类器分类的准确性被报道。图3列出了分类器支持向量机和逻辑回归对不同成分特征组合表示动作图像的分类准确率。图4是使用特征组合获得的分类精度的可视化表示,以便更好地理解和比较。从结果可以看出,FC7-所有成分+自定义相对特征与逻辑回归相结合的分类准确率最好,达到81.97%。这并不奇怪,因为所有的组件都是与定制功能一起使用的,它提供了更丰富的图像描述。这一结果表明,将图像分解为独立的组成部分,从中提取特征,然后将它们一起处理的方法是对动作图像进行很好的表征的方法。

在这里插入图片描述
在这里插入图片描述
一般来说,逻辑回归的表现略优于支持向量机。FC7-所有组件给出了第二好的精度(80.81%),仅略低于FC7-所有组件+自定义相对特征。这表明,当所有组件都被使用时,编码动作组件之间相对空间关系的自定义关系特性并没有添加太多有用的信息。自定义关系特征本身产生的分类精度最低,这表明仅仅编码相对空间关系是不足以对动作进行分类的。FC7-union的分类准确率排名第三(73.25%)。这非常有趣,因为FC7-union和fc7 -所有组件在图像中覆盖了相同的区域,但fc7 -所有组件的结果是更好的准确性。这证明了一个假设,即单独呈现动作组件能够提供更好且更完整的表现,而不是将动作视为一个整体。

分离动作组件,然后一起处理它们,增加了对每个组件的关注,同时捕获它们的相互依赖性和空间关系。这使得模型对数据集的变化更加健壮,从而更好地泛化。使用更多的特征导致了更好的分类,这是意料之中的。在单个区域中,联合区域给出了最好的结果,因为它拥有捕捉整个行动的最大视场。人区域做得最好,其次是对象和交互。有趣的是,人的特征比对象的特征表现得更好。一个原因可能是大多数物体是部分闭塞的。因此,不使用整个对象来提取特征,根据遮挡的种类,形成对象的通用模板比较困难。另一个原因可能是一个动作使用了许多不同的对象类别。同一类的对象也显示出很多变化。对象的类内差异要比特定动作中的人的姿态高得多。一个人可以执行一个动作的方式的数量远远低于可用于执行一个动作的对象的种类。因此,人比物体是更好的动作识别线索。在两个区域的组合中,fc7人+ fc交互效果最好,其次是fc7人+定制相对特征、fc7人+ fc交互和fc7人+定制相对特征。这表明人是比对象更好的线索,使用CNN代码表示交互比自定义关系特性更好。考虑到CNN代码在交互区域(4096维)和自定义关系特征(36维)的特征维度上的差异,两者之间的精度差异并不大。

另一个有趣的观察是,对对象使用CONV5激活比对对象使用FC7激活产生更好的结果。这表明CONV5特性能够更好地泛化对象。与FC7相比,它们对类内部的变化更加健壮,并且更好地捕获执行特定操作所需的对象类型。本节将讨论基于聚类的识别动作的每个组成特征组合的重要性的结果评估。本研究采用8个聚类的K-means。采用归一化互信息(NMI)对所形成的聚类进行评价。表1列出了所有成分特征组合的k-均值聚类的NMI得分。趋势和模式与分类结果相似。这些结果支持了我们的假设,即行为是由独立的组成部分组成的,将它们分开处理,然后将它们结合起来可以使模型更加稳健。

在这里插入图片描述

在这里插入图片描述

图5是使用特征组合获得的分类精度的可视化表示,以便更好地理解和比较。然而,有些结果与基于分类的实验结果相矛盾。fc7 -所有组件+自定义相对特性的表现比fc7 -所有组件差。CONV5-object的性能比FC7-object差。在这两种情况下,与性能较好的特性相比,性能较差的特性具有更大的维度。欧几里得距离在更高维度下的效率较低,而k均值对圆形星团有效。这种带有欧氏距离的k-means伪效应可能是导致分类和聚类结果不一致的原因。另一个原因可能是自定义关系特征是一个稀疏向量,这可能会对作为k-means算法基础的欧氏距离的计算产生负面影响。同样有趣的是,对象组件的性能略好于人组件。一个原因可能是NMI分数的计算方式。NMI偏好具有更多簇的解决方案,因此对象的差异大于人的差异可能导致NMI得分更高。另一个原因可能是,对象特征在对象特征空间中的分布方式和人特征在人特征空间中的分布方式是不同的。由于对象在不同对象的图像之间的外观与人在类之间的外观大不相同,因此聚集对象可能更容易。聚类发现自然组,但可以训练分类器来区分数据组。

总结

本文将静止图像中的复杂动作分解为多个语义成分,并对每个语义成分对动作识别的重要性进行了评价。利用分类和聚类技术评估特征的重要性。

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值