DTW标准代码,在轨迹相似度有过应用

DTW 的理解思路还是按照动态规划的思路 ,和LeetCode的72题编辑距离以及求最短路径类似。DTW会重复使用序列中的点,从而达到扭曲对齐的.

一般都是用两个指针i,j分别指向两个列表的最后,然后一步步往前走,缩小问题的规模。先计算a[i]和b[j]的两点距离,然后开始移动指针i和j,可以i,j一起移动到i-1,j-1,也可以i或者j只移动一个即i-1,j和 i,j-1。那么dp[i,j]= distance(i,j)+min(dp[i-1,j-1],dp[i-1,j],dp(i,j-1))

  1. dp[i,j]的含义是存储两个序列a,b的最短路径距离
  2. dp[i,j]可以由dp[i-1,j],dp[i,j-1],dp[i-1,j-1]推导得到,从三者中找出最小值再加上a[i]和b[j]的两点距离
  3. base case就是i,j为0的时候,设为无穷大即可
import numpy as np
a = np.random.randint(0,5,5)
b = np.random.randint(0,5,2)
a,b
(array([3, 1, 3, 1, 4]), array([1, 2]))
l1 = len(a)
l2 = len(b)

dp table备忘录

dp = np.full((l1+1,l2+1),fill_value=float('inf'))
dp[0,0]=0

choices记录移动方向,初始化
最终要从dp[i,j]往dp[1,1]的回推

choices = np.full((l1+1,l2+1),fill_value='45')
choices
array([['45', '45', '45'],
       ['45', '45', '45'],
       ['45', '45', '45'],
       ['45', '45', '45'],
       ['45', '45', '45'],
       ['45', '45', '45']], dtype='<U2')

计算两点距离

def distance(m,n):
    return np.abs((m-n))
    

DTW

for i in range(1,l1+1):
    for j in range(1,l2+1):
        which = np.argmin((dp[i-1,j-1],dp[i-1,j],dp[i,j-1]))
        if which==0:
            pass
        elif which==1:
            choices[i,j]='up'
        else:
            choices[i,j] = 'lf'
        dp[i,j] = min(dp[i-1,j-1],dp[i-1,j],dp[i,j-1])+distance(a[i-1],b[j-1])
        
dp
array([[ 0., inf, inf],
       [inf,  2.,  3.],
       [inf,  2.,  3.],
       [inf,  4.,  3.],
       [inf,  4.,  4.],
       [inf,  7.,  6.]])
choices
array([['45', '45', '45'],
       ['45', '45', 'lf'],
       ['45', 'up', '45'],
       ['45', 'up', '45'],
       ['45', 'up', 'up'],
       ['45', 'up', '45']], dtype='<U2')
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
在日常的生活中我们最经常使用的距离毫无疑问应该是欧式距离,但是对于一些特殊情况,欧氏距离存在着其很明显的缺陷,比如说时间序列,举个比较简单的例子,序列A:1,1,1,10,2,3,序列B:1,1,1,2,10,3,如果用欧氏距离,也就是distance[i][j]=(b[j]-a[i])*(b[j]-a[i])来计算的话,总的距离和应该是128,应该说这个距离是非常大的,而实际上这个序列的图像是十分相似的,这种情况下就有人开始考虑寻找新的时间序列距离的计算方法,然后提出了DTW算法,这种方法在语音识别,机器学习方便有着很重要的作用。 这个算法是基于动态规划(DP)的思想,解决了发音长短不一的模板匹配问题,简单来说,就是通过构建一个邻接矩阵,寻找最短路径和。 还以上面的2个序列作为例子,A中的10和B中的2对应以及A中的2和B中的10对应的时候,distance[3]以及distance[4]肯定是非常大的,这就直接导致了最后距离和的膨胀,这种时候,我们需要来调整下时间序列,如果我们让A中的10和B中的10 对应 ,A中的1和B中的2对应,那么最后的距离和就将大大缩短,这种方式可以看做是一种时间扭曲,看到这里的时候,我相信应该会有人提出来,为什么不能使用A中的2与B中的2对应的问题,那样的话距离和肯定是0了啊,距离应该是最小的吧,但这种情况是不允许的,因为A中的10是发生在2的前面,而B中的2则发生在10的前面,如果对应方式交叉的话会导致时间上的混乱,不符合因果关系。 接下来,以output[6][6](所有的记录下标从1开始,开始的时候全部置0)记录A,B之间的DTW距离,简单的介绍一下具体的算法,这个算法其实就是一个简单的DP,状态转移公式是output[i] [j]=Min(Min(output[i-1][j],output[i][j-1]),output[i-1][j-1])+distance[i] [j];最后得到的output[5][5]就是我们所需要的DTW距离.

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值