Drop-DTW:在删除异常值的同时,在序列之间对齐公共信号
Drop-DTW: Aligning Common Signal Between Sequences While Dropping Outliers
https://papers.nips.cc/paper/2021/file/729c68884bd359ade15d5f163166738a-Paper.pdf
35th Conference on Neural Information Processing Systems (NeurIPS 2021).
代码:
https://github.com/SamsungLabs/Drop-DTW
目录
1、 引入
图1: 教学视频对齐:
左图: 两个视频序列(顶部和底部)都描述了“做拿铁”的三个主要步骤; 然而,在这些步骤之间还有一些不相关的视频片段,例如,“异常值”。DTW 将所有帧彼此对齐,并创建错误的对应,其中异常值被匹配到信号(红色链接)。
右: 相比之下,删除 dtw 找到最佳对齐,同时删除无关帧(删除) ,只留下正确的对应(绿色链接)
在本文中,我们引入Drop-DTW来解决包含散布异常值的序列匹配问题,如图1(右)所示,并与标准DTW(左)进行了比较。Drop-DTW是第一个增强DTW的技术,它能够在对齐过程中灵活地跳过信号的不相关部分,同时仍然允许一对多匹配。
Drop-DTW 并不依赖于两步贪婪的方法(在对剩余信号进行对齐之前首先删除元素) ,而是在一个统一的框架中实现了这一点,该框架在联合检测异常值的同时解决了最佳时间对齐问题。
Drop DTW将序列比对作为一个优化问题,新增一个模块在优化过程中删除元素的成本。它是使用一个动态程序有效实现的,该程序自然允许一个可微近似,并且可以在训练和推理时有效使用。
2、 技术过程
2.1 DTW
有两个时序分别为X和Z:
时序匹配的路径在二维矩阵上表示为M
M矩阵中元素1的连线轨迹长这样的:(比如)
C是寻优路径的成本:将元素 zi 与元素 xj 匹配需要一个成本 Ci,j 通常是元素之间不同程度的度量
M*:DTW产生最佳对齐方式M*在序列Z和X之间,使整体匹配成本最小化:
对于包含离群点的序列,匹配端点和连续性约束过于严格,导致无意义的比对。因此,我们引入了 Drop-DTW,在匹配过程中允许更多的灵活性。
举例:以下是手写数据集中数字3的移动视频帧序列,其中b和c的序列里替换了不相关的数字0作为第二帧。
图2:与DTW和Drop-DTW的最佳对齐。
对齐两个不同的视频,其中数字“3”在方形框架上移动。矩阵表示成对匹配成本C,较黑的单元格表示较高的成本Ci,j。网格上的路径是对齐路径,而它们上的点表示对应的行和列元素之间的成对匹配。
(a) 这三条路径都是可行的DTW路径,而其中只有一条(实线为绿色)是最优的。
(b) 当序列X包含异常值(即数字“0”)时,DTW在对齐中使用该异常值,并产生高成本(红点)。
(c) 相比之下,Drop-DTW跳过异常值(同时支付成本d),只保留相关匹配项。
2.2 Drop-DTW
确定异常值在Z和X中的占位,M矩阵在该元素对应的行列为0
比如:
设定跳过成本:
匹配成本:
Ci,j
The optimal matching can be then defined as follows:
如果
向量 在第j个元素的列上等于1,同理Pz(M)
为了简洁表述,以序列X中存在异常值为例,给出如下算法步骤:
2.3 定义匹配成本
对于有两种定义方法:
- 一般情况下:
- 在表征学习中,以下不对称匹配成本公式表现较好: 注:Softmax1(·)定义了应用于第一个张量维数的标准 softmax 运算符
2.4 定义跳过成本
有很多方法来定义跳过成本。作为一个起点,考虑一个跳过成本,它是 x 和 z 中所有元素的一个固定常数:
但是这样不太灵活,所以有以下两种定义方法:
- 百分比跳过成本。为了避免极端的结果,我们用与匹配成本 c 相当的数值来定义每个实例的跳过成本。特别地,我们将跳过成本定义为 p ∈[0,100]成本矩阵中包含的最高百分位数,c:
- 可学习的跳过成本。带横杠的变量为平均值,f为学习函数,w为f的参数
2.5 Drop-DTW作为可微损失函数
- 可微近似:
可将原算法的hard-min算子改为软性的:
参考:《Soft-DTW- a Differentiable Loss Function for Time-Series》
其中 γ > 0是一个控制平滑度和逼近误差之间平衡的超参数
- 损失函数:
D为Z和X的最优匹配成本
3、实验
3.1 概述
Drop-DTW 在各种应用中的优势,
包括多步定位、
噪声视频中的表征学习
以及用于检索和定位的音视频对齐。
3.2 多步定位
结果:
指标:
3.3 噪声视频中的表征学习
使用CrossTask COIN YouCook2三组数据集进行不同算法的对比试验:
3.4 用于检索和定位的音视频对齐