python 时间曲线相似度计算_时间序列相似性度量综述

最新推荐文章于 2024-07-30 14:22:19 发布

我就是月下

最新推荐文章于 2024-07-30 14:22:19 发布

阅读量6k

点赞数 4

文章标签： python 时间曲线相似度计算

本文链接：https://blog.csdn.net/weixin_35775446/article/details/113642578

版权

本文介绍了时间序列相似性度量的重要性和常见问题，特别是欧式距离的局限性。详细讨论了模式距离（Pattern Distance）和形状距离（Shape Distance）的概念及其计算方法，强调了它们在处理形状和趋势相似性上的优势。同时，文章还探讨了动态时间规整（Dynamic Time Warping, DTW）算法，解释了DTW如何解决图形平移问题，并通过Python代码示例展示了DTW的计算过程。这些方法在时间序列分析、语音识别等领域具有广泛应用。" 124795165,13968073,华为Datacom认证考试详解,"['华为网络', '数据通信', '路由交换', '网络管理', '网络解决方案']

摘要由CSDN通过智能技术生成

时间序列相似性属于曲线相似性/曲线匹配(curve matching)领域的内容，在这一领域，有许多有用的方法，但是国内的博客上鲜有这方面的内容，因此我选取了几种常用的方法进行一下综述性的阐述。

衡量相似性之前，我们首先定义“相似”。

正常情况下，我们认为x,y,z是形状相似的，在这三条曲线中，我们认为y，z是最相似的两条曲线(因为y,z的距离最近)。

ok，那我们先来看看寻常意义上的相似：距离最近且形状相似。本文主要详细介绍时间序列相似度计算的DTW算法和PLR算法。

1. 欧式距离

要衡量距离与形状，显然欧式距离是一个天然完美的指标，上图中我们正是基于欧式距离认为y与z是最相似的，欧式距离在诸多算法都有广泛的应用。对于长度相同的序列，计算每两点之间的距离然后求和，距离越小相似度越高(whole matching)。对于不同长度的序列，一般有两种方法处理：

1)子序列匹配(subsequence matching): 找出长序列中与短序列最相似的部分。举个栗子，设序列

equation?tex=A%3A%5Ba_1%2Ca_2...a_n%5D ,序列

equation?tex=B%3A%5Bb_1%2Cb_2%2C...b_m%5D ，其中

equation?tex=n%3Em 。滚动地计算A与B的距离：

equation?tex=d1%3D%5Csqrt%7B%28a_1-b_1%29%5E2%2B%28a_2-b_2%29%5E2%2B...%2B%28a_m-b_m%29%5E2%7D

equation?tex=d2%3D%5Csqrt%7B%28a_2-b_1%29%5E2%2B%28a_3-b_2%29%5E2%2B...%2B%28a_%7Bm%2B1%7D-b_m%29%5E2%7D ，然后找出所有d中的最小值，该距离所对应的A序列的索引即为A中与B最相似的部分。

2)滑动窗口：微软在2001年在Dimensionality Reduction for Fast Similarity Search文中提出为了减少算法复杂度，可以复制B序直到与A序列等长。

由于微软之后使用了独特的降维方法，且计算复杂度不是本文考虑的主要内容，因此，在涉及长短序列相似度计算的时候，本文均使用第一种方法。

似乎时间序列的相似性度量的计算可以就此为止了，然而远非如此。

天津大学的XIAO-LI DONG, CHENG-KUI GU, ZHENG-OU WANG在2006年Research on shape-based time series similarity measure[C]//2006 International Conference on Machine Learning and Cybernetics. IEEE, 2006: 1253-1258一文中指出了欧式距离用于衡量时间序列相似性的三个缺陷：不能辨别形状相似性

不能反映趋势动态变化幅度的相似性

基于点距离的计算不能反映不同分析频率的不同

举个栗子：

A与B的变化趋势几乎完全相反，A与C的变化趋势几乎完全相同。如果使用欧式距离去度量，那么结论就是A与B是最相似的。而实际上，在变化是A与C是相似的。

为了进一步加强对欧式距离的理解，我们不妨再举一个简单的例子：

正常来说，我们认为与y1最相似的是y3，实际上，y3就是y1向下平移得到的。然而欧式距离告诉我们，距离y1最近的是y2。

下面是使用Python进行模拟的源代码：

import numpy as np

import matplotlib.pyplot as plt

x=np.arange(0,np.pi*2,0.1)

y1=np.sin(x)

y2=np.cos(x)-2