Drop-DTW笔记 附代码地址

Drop-DTW:在删除异常值的同时,在序列之间对齐公共信号

Drop-DTW: Aligning Common Signal Between Sequences While Dropping Outliers

https://papers.nips.cc/paper/2021/file/729c68884bd359ade15d5f163166738a-Paper.pdf

35th Conference on Neural Information Processing Systems (NeurIPS 2021).

代码:

https://github.com/SamsungLabs/Drop-DTW

目录

1、 引入

2、 技术过程

2.1 DTW

2.2 Drop-DTW

2.3 定义匹配成本

2.4 定义跳过成本

2.5 Drop-DTW作为可微损失函数

3、实验

3.1 概述

3.2 多步定位

 3.3 噪声视频中的表征学习

 3.4 用于检索和定位的音视频对齐


1、 引入

图1: 教学视频对齐:

左图: 两个视频序列(顶部和底部)都描述了“做拿铁”的三个主要步骤; 然而,在这些步骤之间还有一些不相关的视频片段,例如,“异常值”。DTW 将所有帧彼此对齐,并创建错误的对应,其中异常值被匹配到信号(红色链接)。

右: 相比之下,删除 dtw 找到最佳对齐,同时删除无关帧(删除) ,只留下正确的对应(绿色链接)

在本文中,我们引入Drop-DTW来解决包含散布异常值的序列匹配问题,如图1(右)所示,并与标准DTW(左)进行了比较。Drop-DTW是第一个增强DTW的技术,它能够在对齐过程中灵活地跳过信号的不相关部分,同时仍然允许一对多匹配。

Drop-DTW 并不依赖于两步贪婪的方法(在对剩余信号进行对齐之前首先删除元素) ,而是在一个统一的框架中实现了这一点,该框架在联合检测异常值的同时解决了最佳时间对齐问题。

Drop DTW将序列比对作为一个优化问题,新增一个模块在优化过程中删除元素的成本。它是使用一个动态程序有效实现的,该程序自然允许一个可微近似,并且可以在训练和推理时有效使用。

2、 技术过程

2.1 DTW

有两个时序分别为X和Z:

 时序匹配的路径在二维矩阵上表示为M

M矩阵中元素1的连线轨迹长这样的:(比如)

 

C是寻优路径的成本:将元素 zi 与元素 xj 匹配需要一个成本 Ci,j 通常是元素之间不同程度的度量

M*:DTW产生最佳对齐方式M*在序列Z和X之间,使整体匹配成本最小化:

 对于包含离群点的序列,匹配端点和连续性约束过于严格,导致无意义的比对。因此,我们引入了 Drop-DTW,在匹配过程中允许更多的灵活性。

举例:以下是手写数据集中数字3的移动视频帧序列,其中b和c的序列里替换了不相关的数字0作为第二帧。

图2:与DTW和Drop-DTW的最佳对齐。

对齐两个不同的视频,其中数字“3”在方形框架上移动。矩阵表示成对匹配成本C,较黑的单元格表示较高的成本Ci,j。网格上的路径是对齐路径,而它们上的点表示对应的行和列元素之间的成对匹配。

(a) 这三条路径都是可行的DTW路径,而其中只有一条(实线为绿色)是最优的。

(b) 当序列X包含异常值(即数字“0”)时,DTW在对齐中使用该异常值,并产生高成本(红点)。

(c) 相比之下,Drop-DTW跳过异常值(同时支付成本d),只保留相关匹配项。

2.2 Drop-DTW

确定异常值在Z和X中的占位,M矩阵在该元素对应的行列为0

比如:

设定跳过成本:

 

匹配成本:

Ci,j

The optimal matching can be then defined as follows:

 

如果

向量 在第j个元素的列上等于1,同理Pz(M)

为了简洁表述,以序列X中存在异常值为例,给出如下算法步骤:

2.3 定义匹配成本

对于有两种定义方法:

  1. 一般情况下: 
  2. 在表征学习中,以下不对称匹配成本公式表现较好:       注:Softmax1(·)定义了应用于第一个张量维数的标准 softmax 运算符

 

2.4 定义跳过成本

有很多方法来定义跳过成本。作为一个起点,考虑一个跳过成本,它是 x 和 z 中所有元素的一个固定常数:

但是这样不太灵活,所以有以下两种定义方法:

  1. 百分比跳过成本。为了避免极端的结果,我们用与匹配成本 c 相当的数值来定义每个实例的跳过成本。特别地,我们将跳过成本定义为 p ∈[0,100]成本矩阵中包含的最高百分位数,c: 
  2. 可学习的跳过成本。带横杠的变量为平均值,f为学习函数,w为f的参数

 

2.5 Drop-DTW作为可微损失函数

  1. 可微近似:

    可将原算法的hard-min算子改为软性的:

    参考:《Soft-DTW- a Differentiable Loss Function for Time-Series》

    其中 γ > 0是一个控制平滑度和逼近误差之间平衡的超参数

  2. 损失函数:

     

    D为Z和X的最优匹配成本 

3、实验

3.1 概述

Drop-DTW 在各种应用中的优势,

包括多步定位

噪声视频中的表征学习

以及用于检索和定位的音视频对齐

3.2 多步定位

结果:

指标:

Recall 定义
为正确分配给地面真相时间间隔的步骤数除以步骤的总数,并且是三个考虑的最严格的度量。
框架的精度( ACC [10]
定义为分配正确的步骤标签(包括背景)和帧总数之间的帧数之间的比率。
联合 的交集( IOU [11]
定义为每个步骤的预测真相时间间隔之间的相交之和,除以其工会的总和。 IOU 是这三个指标中最具挑战性的,因为它更严格地惩罚了未对准。

 3.3 噪声视频中的表征学习

使用CrossTask COIN YouCook2三组数据集进行不同算法的对比试验:

 3.4 用于检索和定位的音视频对齐

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值