静态图像-行为识别数据集及论文 Action Recognition in still image

最新推荐文章于 2024-07-19 21:15:16 发布

上园村蜻蜓队长

最新推荐文章于 2024-07-19 21:15:16 发布

阅读量5.6k

点赞数 6

文章标签：行为识别人工智能图像识别深度学习

本文链接：https://blog.csdn.net/lgk1996/article/details/79814888

版权

目前关于行为识别的研究多集中在视频，而静态图片只有空间信息，没有时间信息，信息量不够多，所以来做行为识别是有难度的，现有的研究成果比较少，可用的数据集不多，我现在也在做静态图像行为识别方面的研究，多数论文使用的数据集主要有以下几个。

一.、Stanford40 Dataset

该数据库是斯坦福大学的FeiFei-Li教授所在的团队创建并维护的，包括40种不同的行为类，共9532张图片。每个行为类都有120-250张数量不等的图像，是目前已知的最大规模的静态识别库。可以看出stanford40数据库中图像的背景相对简单，行为个体的位置多居于图像的中心位置，且值得一提的是，该数据集中图片分辨率良好，这样训练时候的数据扩充可以得到更多的样本。

实现论文：B. Yao, X. Jiang, A. Khosla, A.L. Lin, L.J. Guibas, and L. Fei-Fei. Human Action Recognitionby Learning Bases of Action Attributes and Parts. Internation Conference on ComputerVision (ICCV), Barcelona, Spain. November 6-13, 2011.

二、PPMI Dataset

该数据库也是由斯坦福大学的FeiFei-Li教授所在的团队创建并维护的，创建者是Bangpeng Yao，该数据库包含24种不同的行为类，共4092张图片，每个行为类都有160-180张数量不等的图像。有趣的是，这24种不同的行为类，分别对应12种乐器，每种乐器包括拿着该乐器和演奏该乐器两类。如下图。PMMI数据集很明显比stanford 40数据集具有更加复杂的背景和遮挡。

实现论文：Bangpeng Yao and Li Fei-Fei. Grouplet: A Structured Image Representation forRecognizing Human and Object Interactions. IEEE Conference on Computer Vision andPattern Recognition (CVPR), 2010.

三、Pascal Voc 2012 Dataset

该数据集有 9157 张静态彩色图像, 其中 4588 张为训练集, 4569 张为测试集, 由 10个动作类别组成:

1.Jumping 2.Phoning 3.Playing Instrument 4.Reading 5.Taking Photo

6.Riding Bike 7.Riding Horse 8.Runing 9.Using Computer 10.Walking

实现论文：Contextual Action Recognition with R*CNN, ICCV 2015

四、Willow Actions Dataset

该数据集有 911 张静态彩色图像, 由 7 个动作类别组成:

1.Interacting with computer 2.Photographing 3.Playing music instrument 4.Riding bike

5.Riding horse 6.Running 7.Walking

实现论文：V. Delaitre, I. Laptev and J. Sivic Recognizing human actions in still images: a study of bag-of-features and part-based representations Proceedings of the 21st British MachineVision Conference, Aberystwyth, September 2010, poster.

五、SUN Action Dataset

该数据集主要是场景的数据集, 也就是给一个场景的静态图像, 估计该场景会发生什么动作. 例如给一张羽毛球场的静态图片(里面可能没有 subject), 那么该图像很可能会发生打羽毛球的动作.该数据集由 397 个场景类别中的 61 动作类别组成, 其中有 194 个户外场景的 38个类别, 203 个户内场景的 23 个动作类别组成.

实现论文：VU, T.H. and Olsson, C. and Laptev, I. and Oliva, A. and Sivic, J. Predicting Actions fromStatic Scenes. In ECCV, 2014.

六、MPII Pose Dataset

该数据集主要是 pose 的数据集, 但是它里面提供了 activity 的 label, 所以这里就把它当作动作的数据集. 该数据集大概有 25k 的静态彩色图像, 覆盖了大约 40k 的subjects, 由 410 种 aactivities 构成.

实现论文：Mykhaylo Andriluka and Leonid Pishchulin and Peter Gehler and Schiele, Bernt. 2DHuman Pose Estimation: New Benchmark and State of the Art Analysis. In CVPR, 2014.