计算时间序列的相似性 DTW, DBA,SoftDTW原理、算法及Python实现
DTW, DBA, SoftDTW
最近在做时间序列相关性的聚类问题。看到很多博客将计算DTW的函数误写为计算DBA的函数,例如这篇基于DBA计算相关性的k-medoid 聚类实现。
在此,重温一下各个Dynamic Time Warping子方法的定义、常用函数及参数设置,另附上tslearn包的源代码链接供大家参考。
1. DTW (Dynamic Time Warping) 动态时间规整
DTW是计算时间序列对齐后的欧氏距离(the Euclidean distance between aligned time series), i.e., if 𝜋 is the alignment path:
用DTW相似度计算cross-similarity matrix:
链接: DTW 参数设置及源码
tslearn.metrics.cdist_dtw(dataset1, dataset2=None, global_constraint=None, sakoe_chiba_radius=None, itakura_max_slope=None, n_jobs=None, verbose=0)
示例 DTW计算多个序列间的相似度
>>> cdist_dtw([[1, 2, 2, 3], [1., 2., 3., 4.]])
array([[0., 1.],
[1., 0.]])
2. DBA (DTW Barycenter Average)
DTW Barycenter Averaging (DBA) 是通过期望最大化算法(Expectation-Maximization algorithm)估计的DTW重心平均方法。
DBA 最初出现在[1] 中。此实现基于来自[2](Majorize-Minimize Mean Algorithm)的想法。
tslearn.barycenters.dtw_barycenter_averaging(X, barycenter_size=None, init_barycenter=None, max_iter=30, tol=1e-05, weights=None, metric_params=None, verbose=False, n_init=1
链接: tslearn.barycenters包 DBA源码.
示例 重心(Barycenter)的计算
链接: DBA 参数设置及源码
from tslearn.barycenters import dtw_barycenter_averaging
bar = dtw_barycenter_averaging(X, barycenter_size=3)
链接: SoftDTW Barycenter 参数设置及源码
from tslearn.barycenters import softdtw_barycenter
from tslearn.utils import ts_zeros
initial_barycenter = ts_zeros(sz=5)
bar = softdtw_barycenter(X, init=initial_barycenter)
[1] F. Petitjean, A. Ketterlin & P. Gancarski. A global averaging method for dynamic time warping, with applications to clustering. Pattern Recognition, Elsevier, 2011, Vol. 44, Num. 3, pp. 678-693
[2] D. Schultz and B. Jain. Nonsmooth Analysis and Subgradient Methods for Averaging in Dynamic Time Warping Spaces. Pattern Recognition, 74, 340-358.
3. SoftDTW
我们使用 Soft-DTW 度量的 normalize版,来计算交叉相似度矩阵。
Soft-DTW 最初出现在[3]论文中。
Soft-DTW 计算如下:
min𝛾 是参数的soft-min 运算符 𝛾,在极限情况下 𝛾=0, min𝛾 简化为hard-min算子,soft-DTW被定义为DTW相似性度量的平方。
示例 SoftDTW 参数设置
tslearn.metrics.cdist_soft_dtw_normalized(dataset1, dataset2=None, gamma=1.0)
[3] M. Cuturi, M. Blondel “Soft-DTW: a Differentiable Loss Function for Time-Series,” ICML 2017.
4. GAK (Global Alignment Kernel)
全局对齐内核 (GAK) 是对时间序列进行操作的内核。GAK最初出现在[4]论文中。
它被定义为对于给定的带宽 𝜎,写作:
A(𝐱,𝐲) is the set of all possible alignments between series 𝐱 and 𝐲.
示例 GAK 参数设置
tslearn.metrics.cdist_gak(dataset1, dataset2=None, sigma=1.0, n_jobs=None, verbose=0)
[4] M. Cuturi. “Fast Global Alignment Kernels,” ICML 2011.