Rescaling Egocentric Vision
创新点
提出一个大型的厨房视频数据集,并且有高质量的注释,将用于六项任务的学习。
介绍和相关数据集
- 任务导向型数据集导致模型对数据和标签过拟合。
- 多任务视频数据集少,视频数据集大多来自YouTube和电影,都是有策划和剪辑过的。
- ActivityNet数据集:localisation, dense captioning and object detection. AVA数据集:时空动作localisation, 活动演示者检测。
数据收集和可扩展流水线
数据收集
37个演示者、35个演示环境。
使用头戴式设备GoPro Hero7 black。
HyperSmooth视频稳定。
注释流水线
语音(pause and talk)
允许参与者暂停视频去解说视频内容,增加了动作的准确率和密集程度。
文本(English)
将解说语音转成文本,将文本统一翻译成英文,其中在语音转文本中加入三张图片提高翻译人员的共识以及缓解同音异义的问题。使用word2Vec计算余弦相似性并设置检验阈值判断语音转文本的准确率。
语义
使用spaCy将文本解析成动词和名词。
时间标注
建立AMT接口标注动作开始、结束时间。增加工作者数量到4-5个以提高标注的质量。
数据集统计,可伸缩性和时间检验
数据集及划分
EPIC-KITCHENS-100基于EPIC-KITCHEN-55扩展,下表展示了该数据的总体情况和训练集、验证集以及测试集的划分情况。Train/Val/Test划分比例大约为75/10/15。
数据集中动词和名词的频率。动词一共97个,被分成13大类,名词一共300个,被分成21大类。
使用Mask R-CNN检测视频中的双手和物体。三百一十万手边框和三百八十万物体边框以及总共六百六十万掩膜。
可伸缩性和时间检验
通过增加训练集训练增强模型的表现能力。
挑战与基线
动作识别
定义
给定视频片段,预测该片段中的动词、名词和动作类别。
弱监督动作识别
弱监督类别
- 视频级别监督(仅适用于每个视频少量类别的数据集)
- 文本监督(要求动作之间没有重叠)
- 单时间戳监督(可扩展、表现平稳)
定义
A = ( A i ) i = 1 n A i = ( t , v , n , a ) A=(A_{i})_{i=1}^n\\A_i=(t,v,n,a) A=(Ai)i=1nAi=(t,v,n,a)其中 t t t为时间戳, v v v为动词, n n n为名词, a a a为动作类别。
评估
结果
动作检测
定义
A
=
{
A
i
}
i
=
1
M
A
i
=
(
t
s
,
t
e
,
v
,
n
,
a
)
A=\{A_i\}_{i=1}^M\\A_i=(t_s,t_e,v,n,a)
A={Ai}i=1MAi=(ts,te,v,n,a)其中
t
s
t_s
ts为开始帧,
t
e
t_e
te为结束帧。该定义接近于视频时间分割。
结果
动作预期
定义
给定动作的开始帧
t
s
t_s
ts,通过观察
τ
a
=
1
s
e
c
\tau_a=1sec
τa=1sec,预测
(
v
,
n
,
a
)
(v,n,a)
(v,n,a)。
结果
用于动作识别的无监督域自适应
定义
利用标记的源域学会适应未标记的目标域。
困难:源域和目标域来自不同的分布。
结果
动作检索
定义
给定一个查询动作片段,对字幕集合进行排名,是排名较高的字符在语义上与视频的操作更相关。
结果
结论和未来工作
结论
- 提出一个大范围的自我为中心的厨房视频数据集,通过标记流水线使得数据集质量更高,扩展更强。
- 在该数据集上定义了六项任务,提供了排行方法
未来工作
将所有挑战与UDA结合在一起,将可以在没有附加标签的情况下在新环境中进行将来的部署。