Rescaling Egocentric Vision

创新点

提出一个大型的厨房视频数据集,并且有高质量的注释,将用于六项任务的学习。

介绍和相关数据集

  1. 任务导向型数据集导致模型对数据和标签过拟合。
  2. 多任务视频数据集少,视频数据集大多来自YouTube和电影,都是有策划和剪辑过的。
  3. ActivityNet数据集:localisation, dense captioning and object detection. AVA数据集:时空动作localisation, 活动演示者检测。

数据收集和可扩展流水线

数据收集

37个演示者、35个演示环境。
使用头戴式设备GoPro Hero7 black。
HyperSmooth视频稳定。

注释流水线

Annotation Pipeline

语音(pause and talk)

允许参与者暂停视频去解说视频内容,增加了动作的准确率和密集程度。

文本(English)

将解说语音转成文本,将文本统一翻译成英文,其中在语音转文本中加入三张图片提高翻译人员的共识以及缓解同音异义的问题。使用word2Vec计算余弦相似性并设置检验阈值判断语音转文本的准确率。

语义

使用spaCy将文本解析成动词和名词。

时间标注

建立AMT接口标注动作开始、结束时间。增加工作者数量到4-5个以提高标注的质量。

数据集统计,可伸缩性和时间检验

数据集及划分

EPIC-KITCHENS-100基于EPIC-KITCHEN-55扩展,下表展示了该数据的总体情况和训练集、验证集以及测试集的划分情况。Train/Val/Test划分比例大约为75/10/15。
数据集统计
数据集中动词和名词的频率。动词一共97个,被分成13大类,名词一共300个,被分成21大类。
动词和名词统计
使用Mask R-CNN检测视频中的双手和物体。三百一十万手边框和三百八十万物体边框以及总共六百六十万掩膜。
手和物体位置

可伸缩性和时间检验

通过增加训练集训练增强模型的表现能力。
可扩展性和时间检验
动作识别数据集对比
动作识别结果

挑战与基线

动作识别

定义

给定视频片段,预测该片段中的动词、名词和动作类别。

弱监督动作识别

弱监督类别

  • 视频级别监督(仅适用于每个视频少量类别的数据集)
  • 文本监督(要求动作之间没有重叠)
  • 单时间戳监督(可扩展、表现平稳)

定义

A = ( A i ) i = 1 n A i = ( t , v , n , a ) A=(A_{i})_{i=1}^n\\A_i=(t,v,n,a) A=(Ai)i=1nAi=(t,v,n,a)其中 t t t为时间戳, v v v为动词, n n n为名词, a a a为动作类别。

评估

热门数据集与文中挑战的联系

结果

弱监督动作识别结果

动作检测

定义

A = { A i } i = 1 M A i = ( t s , t e , v , n , a ) A=\{A_i\}_{i=1}^M\\A_i=(t_s,t_e,v,n,a) A={Ai}i=1MAi=(ts,te,v,n,a)其中 t s t_s ts为开始帧, t e t_e te为结束帧。该定义接近于视频时间分割。
动作检测

结果

两个模型动作检测的结果

动作预期

定义

给定动作的开始帧 t s t_s ts,通过观察 τ a = 1 s e c \tau_a=1sec τa=1sec,预测 ( v , n , a ) (v,n,a) (v,n,a)
动作预期效果

结果

动作预期结果

用于动作识别的无监督域自适应

定义

利用标记的源域学会适应未标记的目标域。
困难:源域和目标域来自不同的分布。

结果

无监督自适应结果

动作检索

定义

给定一个查询动作片段,对字幕集合进行排名,是排名较高的字符在语义上与视频的操作更相关。
动作检索

结果

动作检索的结果

结论和未来工作

结论

  1. 提出一个大范围的自我为中心的厨房视频数据集,通过标记流水线使得数据集质量更高,扩展更强。
  2. 在该数据集上定义了六项任务,提供了排行方法

未来工作

将所有挑战与UDA结合在一起,将可以在没有附加标签的情况下在新环境中进行将来的部署。

论文地址
github

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值