TALL论文笔记

7个七

已于 2023-06-15 14:11:30 修改

阅读量1.1k

点赞数

分类专栏： Ai论文笔记文章标签：论文阅读

于 2023-06-12 16:08:15 首次发布

本文链接：https://blog.csdn.net/m0_46381421/article/details/131155188

版权

Ai论文笔记专栏收录该内容

10 篇文章 1 订阅

订阅专栏

TALL论文笔记

0.论文来源
1摘要
2引言
3模型结构
4训练
- 4.1损失函数
- 4.2采集训练样本
5 评估

0.论文来源

2017 TALL

1摘要

问题描述：通过语言来对未修剪视频中动作的时间定位
当前的需要：
- 适当的文本和视频表示的设计，以允许动作和语言查询的跨模态匹配
- 能够从有限的尺寸的滑动窗口精确地定位动作所给定的特征。
贡献：提出了一种新的跨模态时间回归定位器（CTRL），以联合建模候选剪辑的文本查询和视频剪辑、输出对齐分数和动作边界回归结果。

2引言

传统的时间动作定位：

以滑动窗口的方式应用基于光流的方法或卷积神经网络训练的活动分类器。然后将查询映射到一个离散的标签。但是设计这样的标签空间使得对所有的活动进行查询而不丢失细节是比较难的。
或者将视觉特征和句子特征嵌入到一个公共空间，然而找不到合适的视觉模型来提取特征，并且实现高精度的预测开始/结束时间。

人们可以在不同的尺度上密集地采样滑动窗口但这样做不仅在计算上很昂贵，而且随着搜索空间的增加，使对齐任务也很难。或者通过学习回归的参数来调整时间边界，但这种方式由于活动具有时空体积，这可能会导致更多的背景噪声过去没有实现。

于是作者提出了 Cross-modal Temporal Regression Localizer (CTRL) 模型
具体贡献如下：

提出了一种新的通过自然语言（TALL）查询的时间活动定位问题
引入了一种有效的跨模态时间回归定位器（CTRL），它通过联合建模语言查询和视频剪辑来估计对齐分数和时间动作边界。

3模型结构

在这里插入图片描述

3.1视觉编码器

通过时间滑动窗口生成一组视频剪辑，将剪辑个上下文映射到一个特征向量。Ev用来提取剪辑级特征向量，其输入为nf帧，输出为维数为dv的向量。从每个剪辑（中央剪辑和上下文剪辑）中均匀地采样nf帧。对于上下文剪辑，我们使用池化层来计算预上下文特性：
在这里插入图片描述

在这里插入图片描述
三者合并映射

3.2句子编码器

这篇文章是2017年发的，这里是用的2种方法编码

LSTM
Skip-thought

3.3模态融合

如模型图所示，用公式来说的话就是
在这里插入图片描述

3.4时间定位回归网络

Fsv为输入，并有2个输出：

alignment score
剪辑位置和回归偏移，设计了两种位置偏移表示：

在这里插入图片描述

tc和tl分别是参数化的中心点偏移和长度偏移，p和l分别表示剪辑的中心坐标和剪辑的长度，变量p、pc用于预测剪辑和测试剪辑，l、lc也是一样。

List item
s和e分别表示剪辑的开始坐标和结束坐标

4训练

4.1损失函数

在这里插入图片描述
Laln用于视觉-语义对齐，Lreg用于剪辑位置回归，α是一个超参数，它控制着两个任务损失之间的平衡。对齐丢失鼓励对齐的剪辑句子对有正分数，而不对齐的句子对有负分数。

N为批处理大小，CSi，j为句子sj和视频剪辑ci之间的对齐得分，αc和αw是控制正（对齐）和负（不对齐）的剪辑句子对之间的权重的超参数。
在这里插入图片描述
x和y表示p和l表示参数化偏移量，或s和e表示非参数化偏移量。R (t)为Smoth L1函数

4.2采集训练样本

首先采用滑动的窗口对视频片段进行滑动，滑动窗口的大小分为[64，128，256，512]帧，测试的时候是128帧。每个训练样本都包含一个句子描述（sh，τh，τeh）和一个视频剪辑（ch、ts h、te h）正例的样本需要满足三个条件：1.视频片段与句子重叠的部分大于并集长度的50%。2.非重叠部分小于视频片段长的20%。3.一个滑动窗口只能描述一个句子。
在这里插入图片描述

5 评估

5.1数据集

TACoS
Charades-STA，这个是作者自己改进的数据集

5.2评价指标

R@n,IoU=m

5.3实验结果

在这里插入图片描述
CTRL（aln）：我们不使用回归，只用对齐损失Laln来训练CTRL。
CTRL（reg-p）：用对齐损失Laln和参数化回归损失−训练CTRL
CTRL（reg-np）：考虑上下文信息，CTRL用Laln对齐损失和非参数化回归损失进行训练。
CTRL(loc): 参考SCNN提出使用重叠损失来提高活动定位性能在这里插入图片描述

在这里插入图片描述

“CTRL”意味着我们只是简单地将整个复杂的句子输入到CTRL模型中。“CTRL+Fusion”是指我们将一个复杂查询中的每个句子分别输入到CTRL中，然后进行后期融合。

7个七

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
TALL论文笔记

问题描述：通过语言来对未修剪视频中动作的时间定位当前的需要：适当的文本和视频表示的设计，以允许动作和语言查询的跨模态匹配能够从有限的尺寸的滑动窗口精确地定位动作所给定的特征。贡献：提出了一种新的跨模态时间回归定位器（CTRL），以联合建模候选剪辑的文本查询和视频剪辑、输出对齐分数和动作边界回归结果。
复制链接

扫一扫

专栏目录