时间序列相似性搜索总结

最新推荐文章于 2022-06-14 21:01:23 发布

key_v

最新推荐文章于 2022-06-14 21:01:23 发布

阅读量2w

点赞数 8

分类专栏：算法文章标签：算法搜索时序相似性

本文链接：https://blog.csdn.net/key_v/article/details/47733319

版权

本文介绍了时间序列相似性搜索的概念，强调其在预测和数据挖掘中的应用。文章探讨了数据预处理方法，如时序呈现技术，包括DFT、DWT、PCA等，以及标准化处理。同时，提出了相似性测量的欧氏距离和DTW动态时间规整，以及利用DTW下界进行大规模时序搜索的策略。

摘要由CSDN通过智能技术生成

前言

前段时间一直在看时间序列相似性搜索(Time Series Similarity Search)的相关论文，现在终于放暑假了，开心度假中，也正好对那段时间读的论文做些总结。

首先来说明一下什么是时间序列(Time Series，以下简称时序)，时序就是按相等的时间采样的数据点构成的序列，数据点是几维的就叫几维时序。实际中一般以一维和二维时序居多。与时序类似的关键词还有轨迹(trajectory)，按我的理解他们的区别就是轨迹不一定是等时间间隔采样的，而时序一般是指按等时间间隔采样的序列。

其实时序数据挖掘是一个比较热门的研究领域，因为现实生活中很多东西都能看做时序，比如股票的波动数据，病人的心电图数据等，或者更复杂的采样时间间隔不等的轨迹，也能通过等间隔插值的方法近似成时序然后进行处理。因此时序能描述的东西是很多的，对它的研究也进行了很长时间了，现在依然非常热门。

回到主题，那么时序搜索有什么用呢？如果能在历史的数据中找到与现在相似的时序，这可能能帮助我们预测时序未来的走势。此外，时序相似性搜索也是很多其他时序数据挖掘的基础，比如时序数据的分类和聚类等。

正文

下面开始说明怎样进行时序相似性搜索，我们的目的是给定一个时序查询Q，然后从一个时序数据库中返回与Q最相似的时序。

数据预处理

首先，由于时序是典型的高维数据，数据点可能相当多（你想啊，心电图可能几毫秒就采样一个点，这存下来几年的数据得有多少，当然，一条时序具体有多少个点还得看你怎么分割这些数据），我们需要预处理，需要将原始数据以一种合适的方式来呈现，以方便后期的处理，这种技术叫做时序呈现(time series representation),其实也就是维度缩减技术，目的是压缩数据但是保留主要信息。这类技术包括离散傅里叶变换(DFT)，离散小波变换(DWT)，主成分分析(PCA),奇异值分解(SVD),PAA,SAX等，这些东西可以在一些综述中找到，如09年的一篇综述“高效时序相似搜索技术“。

另外，为了减少平移和缩放对相似性的影响，我们需要对原始数据进行标准化，常用的方法是z标准化(Z-score)，就是每个数据点减去平均值，再除以偏标准差。公式为