时间序列相似性搜索总结

本文介绍了时间序列相似性搜索的概念,强调其在预测和数据挖掘中的应用。文章探讨了数据预处理方法,如时序呈现技术,包括DFT、DWT、PCA等,以及标准化处理。同时,提出了相似性测量的欧氏距离和DTW动态时间规整,以及利用DTW下界进行大规模时序搜索的策略。
摘要由CSDN通过智能技术生成

前言

前段时间一直在看时间序列相似性搜索(Time Series Similarity Search)的相关论文,现在终于放暑假了,开心度假中,也正好对那段时间读的论文做些总结。

首先来说明一下什么是时间序列(Time Series,以下简称时序),时序就是按相等的时间采样的数据点构成的序列,数据点是几维的就叫几维时序。实际中一般以一维和二维时序居多。与时序类似的关键词还有轨迹(trajectory),按我的理解他们的区别就是轨迹不一定是等时间间隔采样的,而时序一般是指按等时间间隔采样的序列。

其实时序数据挖掘是一个比较热门的研究领域,因为现实生活中很多东西都能看做时序,比如股票的波动数据,病人的心电图数据等,或者更复杂的采样时间间隔不等的轨迹,也能通过等间隔插值的方法近似成时序然后进行处理。 因此时序能描述的东西是很多的,对它的研究也进行了很长时间了,现在依然非常热门。

回到主题,那么时序搜索有什么用呢?如果能在历史的数据中找到与现在相似的时序,这可能能帮助我们预测时序未来的走势。此外,时序相似性搜索也是很多其他时序数据挖掘的基础,比如时序数据的分类和聚类等。

正文

下面开始说明怎样进行时序相似性搜索,我们的目的是给定一个时序查询Q,然后从一个时序数据库中返回与Q最相似的时序。

数据预处理

首先,由于时序是典型的高维数据,数据点可能相当多(你想啊,心电图可能几毫秒就采样一个点,这存下来几年的数据得有多少,当然,一条时序具体有多少个点还得看你怎么分割这些数据),我们需要预处理,需要将原始数据以一种合适的方式来呈现,以方便后期的处理,这种技术叫做时序呈现(time series representation),其实也就是维度缩减技术,目的是压缩数据但是保留主要信息。这类技术包括离散傅里叶变换(DFT),离散小波变换(DWT),主成分分析(PCA),奇异值分解(SVD),PAA,SAX等,这些东西可以在一些综述中找到,如09年的一篇综述“高效时序相似搜索技术“。

另外,为了减少平移和缩放对相似性的影响,我们需要对原始数据进行标准化,常用的方法是z标准化(Z-score),就是每个数据点减去平均值,再除以偏标准差。公式为

xμ<
  • 8
    点赞
  • 56
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值