Rescaling Egocentric Vision

最新推荐文章于 2025-03-31 19:15:58 发布

jamorZhong

最新推荐文章于 2025-03-31 19:15:58 发布

阅读量522

点赞数 1

分类专栏：数据集文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jamorZhong/article/details/108755776

版权

数据集专栏收录该内容

1 篇文章

订阅专栏

文章介绍了EPIC-KITCHENS-100数据集，这是一个大型的厨房活动视频数据集，包含丰富的注释，用于六个任务的学习：动作识别、弱监督动作识别等。数据集统计显示了动词和名词的频率，以及使用Mask R-CNN进行的手部和物体检测。此外，提出了可扩展的注释流水线和时间标注方法，以提高数据质量和标注效率。文章还讨论了面临的挑战和基线方法，并给出了各项任务的定义和评估结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

创新点

提出一个大型的厨房视频数据集，并且有高质量的注释，将用于六项任务的学习。

介绍和相关数据集

任务导向型数据集导致模型对数据和标签过拟合。
多任务视频数据集少，视频数据集大多来自YouTube和电影，都是有策划和剪辑过的。
ActivityNet数据集：localisation, dense captioning and object detection. AVA数据集：时空动作localisation, 活动演示者检测。

数据收集和可扩展流水线

数据收集

37个演示者、35个演示环境。
使用头戴式设备GoPro Hero7 black。
HyperSmooth视频稳定。

注释流水线

Annotation Pipeline

语音（pause and talk）

允许参与者暂停视频去解说视频内容，增加了动作的准确率和密集程度。

文本（English）

将解说语音转成文本，将文本统一翻译成英文，其中在语音转文本中加入三张图片提高翻译人员的共识以及缓解同音异义的问题。使用word2Vec计算余弦相似性并设置检验阈值判断语音转文本的准确率。

语义

使用spaCy将文本解析成动词和名词。

时间标注

建立AMT接口标注动作开始、结束时间。增加工作者数量到4-5个以提高标注的质量。

数据集统计，可伸缩性和时间检验

数据集及划分

EPIC-KITCHENS-100基于EPIC-KITCHEN-55扩展，下表展示了该数据的总体情况和训练集、验证集以及测试集的划分情况。Train/Val/Test划分比例大约为75/10/15。
数据集统计
数据集中动词和名词的频率。动词一共97个，被分成13大类，名词一共300个，被分成21大类。
动词和名词统计
使用Mask R-CNN检测视频中的双手和物体。三百一十万手边框和三百八十万物体边框以及总共六百六十万掩膜。
手和物体位置

可伸缩性和时间检验

通过增加训练集训练增强模型的表现能力。
可扩展性和时间检验
动作识别数据集对比
动作识别结果

挑战与基线

动作识别

定义

给定视频片段，预测该片段中的动词、名词和动作类别。

弱监督动作识别

弱监督类别

视频级别监督（仅适用于每个视频少量类别的数据集）
文本监督（要求动作之间没有重叠）
单时间戳监督（可扩展、表现平稳）

定义

$A=(A_{i})_{i=1}^n\\A_i=(t,v,n,a)$ 其中 $t$ 为时间戳， $v$ 为动词， $n$ 为名词， $a$ 为动作类别。

评估

热门数据集与文中挑战的联系

结果

弱监督动作识别结果

动作检测

定义

$A=\{A_i\}_{i=1}^M\\A_i=(t_s,t_e,v,n,a)$ 其中 $t_s$ 为开始帧， $t_e$ 为结束帧。该定义接近于视频时间分割。
动作检测

结果

两个模型动作检测的结果

动作预期

定义

给定动作的开始帧 $t_s$ ，通过观察 $\tau_a=1sec$ ，预测 $(v, n, a)$ 。
动作预期效果

结果

动作预期结果

用于动作识别的无监督域自适应

定义

利用标记的源域学会适应未标记的目标域。
困难：源域和目标域来自不同的分布。

结果

无监督自适应结果

动作检索

定义

给定一个查询动作片段，对字幕集合进行排名，是排名较高的字符在语义上与视频的操作更相关。
动作检索

结果

动作检索的结果

结论和未来工作

结论

提出一个大范围的自我为中心的厨房视频数据集，通过标记流水线使得数据集质量更高，扩展更强。
在该数据集上定义了六项任务，提供了排行方法

未来工作

将所有挑战与UDA结合在一起，将可以在没有附加标签的情况下在新环境中进行将来的部署。

附

论文地址
 github

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。