【论文阅读】A Closer Look at Temporal Sentence Grounding in Videos: Dataset and Metric

需要简单了解的知识点

高斯核密度估计

原数据集的问题

(下图分别代表切分前和切分后的数据分布):Charades-STA)大多数标记都从视频的起始处到视频的20%~40%(这一点在之后也没解决,这是数据集收集阶段的问题,不过我认为这一点对模型的能力挖掘影响还是很大的);大多数标记的长度都相差不大(这仍然说的是数据集的问题啊,之后也没有解决);Activitynet)大多数标记都集中于左下、左上、右上三个角落,代表标记中有很多从头开始标记、在尾结束标记和跨越整个视频的(针对这点,后面的解决方案的确起到了一部分的缓解作用)
在这里插入图片描述
在这里插入图片描述

重新切分数据集

training, validation, test-iid, test-ood.

切分的方式:使用高斯核密度估计来拟合数据样本的时刻标注分布,在拟合的分布中,每个时刻都有一个基于视频中时序位置的密度值。将时刻基于密度值排序,取后20%作为初始test-ood set, 前80%作为training set.

保证同一个视频的片段-查询对不同时出现在训练集和测试集中,方法是,遍历测试集,如果片段也在训练集中出现的话,就重新把这个片段所属视频的所有片段-查询对都放在原本片段更多的那个数据集中。另外,对于Activitynet 数据集,将所有长度超过50%的片段-查询对都放在训练集中。

然后将初始的训练集按照70%, 5%, 5%的比例分成training, validation, test-iid.

重新切分的效果:1)training和test-ood的分布有明显的区别了,test-ood的样本更加多样化 2)动作分布相比未重切分前,与training的的分布更相似

改进评价指标

原指标:
在这里插入图片描述

代表,查询语句返回的前 n n n个结果中,至少有一个结果的 I o U IoU IoU大于等于 m m m的比例。

新指标:
在这里插入图片描述
相比于之前,加了两个用于打折扣的参数 α i s \alpha_i^s αis α i e \alpha_i^e αie,通过 α i ∗ = 1 − a b s ( p i ∗ − g i ∗ ) \alpha_i^*=1-abs(p_i^*-g_i^*) αi=1abs(pigi)求得, p p p g g g分别指示归一化的预测节点和真实节点值,这两个参数强化了IoU中非交集的部分(IoU本身代表两个集合交集与并集的比,作者提出了一个情形是,由于Activitynet中的标注本来就偏长,那我们只要每次都预测整个视频,就可以获得很好的结果,此时交并比就是标注的片段本身占视频的长度比例,但是如果使用这个公式的话,那么就会将这种预测中没有预测准确的非交集的部分突出,给得到的结果打上折扣)

实验未看。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值