Action Segmentation动作分割概念区别

非原创,仅作知识整理,参考链接:
Action Segmentation 和Action Detection 区别 - 知乎 (zhihu.com)

https://blog.csdn.net/michaelshare/article/details/127132113

Action Segmentation动作分割概念区别

1.任务内容:动作检测VS动作定位VS动作分割

  • 在视频中定位动作并分类就是动作检测(Action Detection),也被称为动作定位(Action Localization)。其任务为找到动作的开始帧和结束帧并进行分类。时空动作检测 (spatio-temporal action detection) : 相比于时序动作检测略有不同,时空动作检测不仅需要识别动作出现的区间和对应的类别,还要在空间范围内用一个包围框 (bounding box)标记出人物的空间位置。

  • 动作分割(Action Segmentation)则更进一步,为对一段未剪辑视频进行分段,并对每一段视频分配预先定义的动作标签。输出是视频中每一帧的动作类别,该任务可以理解为对每帧视频进行打标签。

  • 动作解析(Action Parsing),在一段动作视频中,定义一连串子动作(sub-action),动作解析即定位这些子动作的开始帧。该任务可更好的进行动作间和动作内部的视频理解。

2.常用公共数据集: Breakfast,Hollywood Extended和50 Salads

  • Breakfast包含了大量的1712个食物准备实例,所有视频是在18个不同的厨房录制的,视频内容是做早餐的一些动作。在视频中包含48个不同的动作类别,每段视频平均包含6个动作类别。平均持续时间为2分钟。

  • Hollywood扩展数据集取自电影中的人类互动,有937个视频,16个动作类和较短的视频,平均30秒。

  • 50 Salads数据集只有50个食品准备实例,视频录制是俯视视角,有17个动作,视频由25个被拍摄者,每人做两个salad录制下来的,平均5分钟。

  • GTEA (Georgia Tech Egocentric Activity):包含七种类型的日常活动,如做三明治、茶或咖啡。每个活动由4个不同的人完成,总共28个视频。对于每个视频,大约有20个精细的动作实例,如拿面包,倒番茄酱,大约一分钟

3.动作分割VS动作检测

  • 最大的区别是 Action Segmentation 的视频是密集标注的,即视频中的每一帧都有类别,一个视频中是多个动作,而Action Detection(或者叫Activity Localization) 是稀疏标注的,一个视频中动作较少,常为一个或者几个。

  • 前者的动作粒度较小,时长较短,如为打开瓶子的盖子,倒出瓶子中的东西,盖住瓶子的盖子。后者粒度较粗,时长较长,如跳高等。

  • 前者的数据集比较小,最大的breakfast 数据集也只有1700+个video, 后者常用的activitynet 训练集就10000+。

  • 前者的视频视角较为独特,如俯视视角和第三人拍摄。后者则为常规的网络视频。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 区域分割(image segmentation)是指将一幅图像分成若干个互不重叠的区域的过程。而uint16是一个16位无符号整数类型,表示的数值范围是从0到65535。在图像处理中,uint16常用于表示灰度图像的像素值。因此,如果要对一幅灰度图像进行区域分割,可以先将图像转换为uint16类型的像素值,然后使用图像分割算法对图像进行分割。常用的图像分割算法包括阈值分割、基于区域的分割、边缘检测等。在分割完成后,可以将每个区域的像素值重新赋值为一个新的值,以便于后续处理。 ### 回答2: Segmentation区域分割是一种将图像或影像划分为不同的区域或物体的技术,它可以应用于各种领域,如医学图像分析、计算机视觉等。 首先,区域分割的目的是将一幅图像或影像划分为多个不同的区域,使得每个区域内的像素具有相似的特征。对于uint16类型的图像,每个像素的灰度值范围在0-65535之间,因此我们可以根据像素的灰度值来进行区域分割。 常见的区域分割方法有基于阈值的分割、基于区域增长的分割、基于图割的分割等。其中,基于阈值的分割是最简单的方法,它将图像根据不同的灰度值范围划分为多个区域。可以根据实际需求选择多个阈值或通过自适应阈值的方法来确定阈值。 另一种常用的方法是基于区域增长的分割,它从某个起始像素开始,根据像素的相似性不断扩展区域,直到无法再扩展为止。该方法适用于具有明显边界和颜色分布均匀的图像。 基于图割的分割是一种基于图论的分割方法,它将图像中的每个像素看作图的节点,根据像素之间的相似性和连接关系建立图,并通过最小割算法将图像划分为多个区域。该方法可以更精确地分割图像,但计算复杂度较高。 在进行区域分割之后,我们可以对每个区域进行进一步的分析和处理,如提取区域的特征、测量区域的大小、形状等。此外,还可以将分割结果与其他信息进行融合,以获取更准确的结果。 总之,Segmentation区域分割uint16是一种将图像或影像划分为不同区域的技术,通过不同的分割方法可以得到不同精度的分割结果,为后续的图像分析和处理提供基础。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值