动作识别01:Understanding action recognition in still images-CSDN博客

本文链接：https://blog.csdn.net/qq_44784738/article/details/127209998

文章目录

摘要
一、引言
二、相关工作
三、实验
- 3.1 定义交互功能
四、结果
总结

摘要

静止图像中的动作识别与姿态估计、目标识别、图像检索、视频动作识别和视频帧标记等计算机视觉任务密切相关。这个问题的重点是用单一的框架识别一个人的动作或行为。与视频中的动作识别不同——这是一个相对成熟的研究领域，在该领域使用了时空特征，但这些对静态图像来说是不可用的，这使问题更具挑战性。在目前的工作中，只考虑涉及对象的行为。一个复杂的动作根据语义被分解成多个组件。系统地研究了这些组成部分在动作识别中的重要性。

一、引言

基于视频的动作识别是一个相对成熟的研究领域，而基于静止图像的识别研究相对较少。在过去的几年里，随着社交网络上越来越多的图片，它获得了大量的关注。由于静止图像不易估计运动，且无法利用时空特征来表征动作，因此静止图像中的动作识别一直是一个具有挑战性的问题。虽然在视频中确定动作更加直观和容易，但在静态图像中识别动作是可能的，也是非常有用的。许多动作类别可以在单幅图像中清晰地描述(没有运动或视频信号)，这些动作可以根据人的感知很好地理解。对于这样的动作类别，一个帧就足以准确地将动作分类。这一证据支持了静态图像中自动动作分析和识别的计算算法的发展。基于静止图像的动作识别有许多有用的应用。

它可以用于监视、机器人应用、人机交互应用、使用动词注释图像、使用动词搜索图像数据库、基于动作查询在线搜索图像、帧标记、在视频中搜索并理解对象的功能，以及基于视频的活动识别中的视频帧缩减。长视频序列可以减少到更少的帧用于动作表示，从而在不影响准确性的情况下减少冗余信息。

静止图像中动作识别面临的主要挑战是缺乏时空特征、背景杂波、某些动作类的类内方差高、类间方差低、背景光照变化和人的姿态变化。时空特征是表征视频动作的最重要特征。在图像的情况下，时间信息会丢失，这使得表现一个动作变得非常困难。静止图像中的动作识别涉及到其他重要的计算机视觉任务，如物体识别、基于视频的动作识别、姿态估计、场景识别和图像检索。对于图像检索和基于视频的动作识别等任务，基于静止图像的动作识别是初步的步骤。基于静止图像的动作识别结果被用作特征，并根据问题陈述与提取的其他特征相结合。另一方面，目标识别作为动作识别的一个初步步骤。现有的对象检测器通常用于获取图像中所有对象的类标签，它们的共现性被建模并用作基于静态图像的动作识别的特征。其他计算机视觉任务，如姿态估计和场景理解也与静态图像动作识别密切相关。许多论文都使用了对正在执行动作的图像和场景中的人的姿态估计作为动作识别的输入。动作识别模型采用姿态和场景特征进行训练，达到一定的准确率。训练后的静止图像动作识别模型被用作输入，从而实现更精确的姿态估计和场景理解模型。这就形成了一个循环，一个任务用来提高另一个任务的性能。

在这项工作中，只考虑涉及一个人操纵一个物体的动作。目的是将一个动作分解成更小的语义组件，并理解这些组件在动作识别中的重要性。

二、相关工作

人体、身体部位、与动作相关的物体、人与物体的相互作用以及整个场景或上下文是静态图像中人体动作识别中最常用的高级线索。这些线索表征了人类行为的不同方面。Wang等人[18]利用了图像中人体整体粗大的形状。形状表示为通过canny边缘检测器[3]获得的边缘点的集合。形状被用作特征，将图像聚类并标记为不同的动作。身体姿势也是动作识别的重要线索。Ikizler等人[9]使用边缘和区域特征从图像中提取身体姿势，使用条件随机场(CRF)构建可变形模型。Yao等人[20]使用一种随机森林的变体从人体区域搜索有用的、有区别的补丁，用于动作识别。关键补丁信息也以显著图[17]的形式表示。从身体部位提取的Poselets[2]，捕捉特定于某些动作的突出身体姿势。在Maji等人[12]和Zheng等人[22]中已经使用基于静态图像的动作识别的波小波分析了身体部位。Raja等人[16]考虑了一个图形模型，该模型包含六个节点，编码五个身体部位的位置和动作标签。人类执行的许多动作都涉及到对象，因此考虑相关的和相关的对象来描述动作是很有用的。Prest等人[15]使用对象