需要简单了解的知识点
高斯核密度估计
原数据集的问题
(下图分别代表切分前和切分后的数据分布):Charades-STA)大多数标记都从视频的起始处到视频的20%~40%(这一点在之后也没解决,这是数据集收集阶段的问题,不过我认为这一点对模型的能力挖掘影响还是很大的);大多数标记的长度都相差不大(这仍然说的是数据集的问题啊,之后也没有解决);Activitynet)大多数标记都集中于左下、左上、右上三个角落,代表标记中有很多从头开始标记、在尾结束标记和跨越整个视频的(针对这点,后面的解决方案的确起到了一部分的缓解作用)
重新切分数据集
training, validation, test-iid, test-ood.
切分的方式:使用高斯核密度估计来拟合数据样本的时刻标注分布,在拟合的分布中,每个时刻都有一个基于视频中时序位置的密度值。将时刻基于密度值排序,取后20%作为初始test-ood set, 前80%作为training set.
保证同一个视频的片段-查询对不同时出现在训练集和测试集中,方法是,遍历测试集,如果片段也在训练集中出现的话,就重新把这个片段所属视频的所有片段-查询对都放在原本片段更多的那个数据集中。另外,对于Activitynet 数据集,将所有长度超过50%的片段-查询对都放在训练集中。
然后将初始的训练集按照70%, 5%, 5%的比例分成training, validation, test-iid.
重新切分的效果:1)training和test-ood的分布有明显的区别了,test-ood的样本更加多样化 2)动作分布相比未重切分前,与training的的分布更相似
改进评价指标
原指标:
代表,查询语句返回的前 n n n个结果中,至少有一个结果的 I o U IoU IoU大于等于 m m m的比例。
新指标:
相比于之前,加了两个用于打折扣的参数
α
i
s
\alpha_i^s
αis和
α
i
e
\alpha_i^e
αie,通过
α
i
∗
=
1
−
a
b
s
(
p
i
∗
−
g
i
∗
)
\alpha_i^*=1-abs(p_i^*-g_i^*)
αi∗=1−abs(pi∗−gi∗)求得,
p
p
p和
g
g
g分别指示归一化的预测节点和真实节点值,这两个参数强化了IoU中非交集的部分(IoU本身代表两个集合交集与并集的比,作者提出了一个情形是,由于Activitynet中的标注本来就偏长,那我们只要每次都预测整个视频,就可以获得很好的结果,此时交并比就是标注的片段本身占视频的长度比例,但是如果使用这个公式的话,那么就会将这种预测中没有预测准确的非交集的部分突出,给得到的结果打上折扣)
实验未看。