【论文阅读】A Closer Look at Temporal Sentence Grounding in Videos: Dataset and Metric

最新推荐文章于 2023-05-13 11:17:41 发布

反科研pua所所长

最新推荐文章于 2023-05-13 11:17:41 发布

阅读量359

点赞数 1

分类专栏：视频片段检索文章标签：机器学习深度学习人工智能

本文链接：https://blog.csdn.net/YasmineC/article/details/123111213

版权

视频片段检索专栏收录该内容

12 篇文章 3 订阅

订阅专栏

需要简单了解的知识点

高斯核密度估计

原数据集的问题

（下图分别代表切分前和切分后的数据分布）：Charades-STA）大多数标记都从视频的起始处到视频的20%~40%（这一点在之后也没解决，这是数据集收集阶段的问题，不过我认为这一点对模型的能力挖掘影响还是很大的）；大多数标记的长度都相差不大（这仍然说的是数据集的问题啊，之后也没有解决）；Activitynet）大多数标记都集中于左下、左上、右上三个角落，代表标记中有很多从头开始标记、在尾结束标记和跨越整个视频的（针对这点，后面的解决方案的确起到了一部分的缓解作用）
在这里插入图片描述

重新切分数据集

training, validation, test-iid, test-ood.

切分的方式：使用高斯核密度估计来拟合数据样本的时刻标注分布，在拟合的分布中，每个时刻都有一个基于视频中时序位置的密度值。将时刻基于密度值排序，取后20%作为初始test-ood set, 前80%作为training set.

保证同一个视频的片段-查询对不同时出现在训练集和测试集中，方法是，遍历测试集，如果片段也在训练集中出现的话，就重新把这个片段所属视频的所有片段-查询对都放在原本片段更多的那个数据集中。另外，对于Activitynet 数据集，将所有长度超过50%的片段-查询对都放在训练集中。

然后将初始的训练集按照70%, 5%, 5%的比例分成training, validation, test-iid.

重新切分的效果：1）training和test-ood的分布有明显的区别了，test-ood的样本更加多样化 2）动作分布相比未重切分前，与training的的分布更相似

改进评价指标

原指标：
在这里插入图片描述

代表，查询语句返回的前 $n$ 个结果中，至少有一个结果的 $I o U$ 大于等于 $m$ 的比例。

新指标：
在这里插入图片描述
相比于之前，加了两个用于打折扣的参数 $\alpha_i^s$ 和 $\alpha_i^e$ ，通过 $\alpha_i^*=1-abs(p_i^*-g_i^*)$ 求得， $p$ 和 $g$ 分别指示归一化的预测节点和真实节点值，这两个参数强化了IoU中非交集的部分（IoU本身代表两个集合交集与并集的比，作者提出了一个情形是，由于Activitynet中的标注本来就偏长，那我们只要每次都预测整个视频，就可以获得很好的结果，此时交并比就是标注的片段本身占视频的长度比例，但是如果使用这个公式的话，那么就会将这种预测中没有预测准确的非交集的部分突出，给得到的结果打上折扣）

实验未看。

反科研pua所所长

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【论文阅读】A Closer Look at Temporal Sentence Grounding in Videos: Dataset and Metric

需要简单了解的知识点高斯核密度估计原数据集的问题（下图分别代表切分前和切分后的数据分布）：Charades-STA）大多数标记都从视频的起始处到视频的20%~40%（这一点在之后也没解决，这是数据集收集阶段的问题，不过我认为这一点对模型的能力挖掘影响还是很大的）；大多数标记的长度都相差不大（这仍然说的是数据集的问题啊，之后也没有解决）；Activitynet）大多数标记都集中于左下、左上、右上三个角落，代表标记中有很多从头开始标记、在尾结束标记和跨越整个视频的（针对这点，后面的解决方案的确起到了一部分
复制链接

扫一扫

专栏目录