Action Segmentation动作分割概念区别

爱发呆的WWT

已于 2023-06-20 10:23:53 修改

阅读量405

点赞数

分类专栏：其他笔记文章标签：人工智能

于 2023-06-20 10:16:14 首次发布

本文链接：https://blog.csdn.net/m0_60273616/article/details/131301094

版权

8 篇文章 0 订阅

订阅专栏

https://blog.csdn.net/michaelshare/article/details/127132113

在视频中定位动作并分类就是动作检测（Action Detection），也被称为动作定位（Action Localization）。其任务为找到动作的开始帧和结束帧并进行分类。时空动作检测 (spatio-temporal action detection) ：相比于时序动作检测略有不同，时空动作检测不仅需要识别动作出现的区间和对应的类别，还要在空间范围内用一个包围框 (bounding box)标记出人物的空间位置。
动作分割（Action Segmentation）则更进一步，为对一段未剪辑视频进行分段，并对每一段视频分配预先定义的动作标签。输出是视频中每一帧的动作类别，该任务可以理解为对每帧视频进行打标签。
动作解析（Action Parsing），在一段动作视频中，定义一连串子动作（sub-action），动作解析即定位这些子动作的开始帧。该任务可更好的进行动作间和动作内部的视频理解。

Breakfast包含了大量的1712个食物准备实例，所有视频是在18个不同的厨房录制的，视频内容是做早餐的一些动作。在视频中包含48个不同的动作类别，每段视频平均包含6个动作类别。平均持续时间为2分钟。
Hollywood扩展数据集取自电影中的人类互动，有937个视频，16个动作类和较短的视频，平均30秒。
50 Salads数据集只有50个食品准备实例，视频录制是俯视视角，有17个动作，视频由25个被拍摄者，每人做两个salad录制下来的，平均5分钟。
GTEA (Georgia Tech Egocentric Activity)：包含七种类型的日常活动，如做三明治、茶或咖啡。每个活动由4个不同的人完成，总共28个视频。对于每个视频，大约有20个精细的动作实例，如拿面包，倒番茄酱，大约一分钟

最大的区别是 Action Segmentation 的视频是密集标注的，即视频中的每一帧都有类别，一个视频中是多个动作，而Action Detection（或者叫Activity Localization）是稀疏标注的，一个视频中动作较少，常为一个或者几个。
前者的动作粒度较小，时长较短，如为打开瓶子的盖子，倒出瓶子中的东西，盖住瓶子的盖子。后者粒度较粗，时长较长，如跳高等。
前者的数据集比较小，最大的breakfast 数据集也只有1700+个video, 后者常用的activitynet 训练集就10000+。
前者的视频视角较为独特，如俯视视角和第三人拍摄。后者则为常规的网络视频。