论文学习——一种基于关键点的SAX改进算法

山外小楼听夜雨.

已于 2022-06-06 16:42:46 修改

阅读量513

点赞数

分类专栏： 2022.6论文学习文章标签：数据挖掘时间序列 SAX

于 2022-06-06 10:48:38 首次发布

本文链接：https://blog.csdn.net/weixin_42521185/article/details/125141143

版权

18 篇文章 3 订阅

订阅专栏

写在前面：期刊《计算机研究与发展》；

在这里插入图片描述

1 摘要

【前人工作】SAX (symbolic aggregate approximation) 是一种符号化的时间序列相似性度量方法。
【缺点】采用PAA均值划分（目的是降维），但是均分点是无法有效描述序列的形态变化的，所以导致序列间在对应分段均值相似的情况下得到的序列间的相似度是不科学不合理的！
【本文工作】在SAX的基础上，提出了基于关键点的SAX改进算法，姑且称之为 KP_SAX
【本文算法的优点】该算法的相似性度量公式，既可以描述时间序列自身数值变化的统计规律（因为采用了均值点划分），又可以描述时间序列形态的变化（因为采用了关键点划分）

【这句话多次出现，把引用给搬上来吧】
时间序列的相似性度量是衡量两个时间序列相义程度的方法，它是时间序列分类聚类异常发现等诸多数据挖掘问题的基础，也是时间序列挖掘的核心问题。
SAX (symbolic aggregate approximation) 是一种运用符号化方法对时间序列进行表示、维度约简及相似性度量的方法，运用时间序列内在的统计规律对数据进行离散化及符号表示，得到时间序列的字符表示。
通过字符之间的距离，从而得到时间序列之间的相似度。

SAX方法采用PAA算法将时间序列平均划分，均分点无法有效描述序列的形态变化，导致序列在对应分段的均值相等的情况下，无法有效计算序列之间的相似度。

看一下计算过程：
① 两个序列分别均分为8段，每一段会用一个符号表示。得到的结果如下：
在这里插入图片描述

【我的胡乱分析】到目前为止，无论是分段表示，还是符号表示，都能够发现在中后期，这两条序列是不一样的，所以说，最后的相似度为0应该不能全怪SAX算法，因为到目前来说，都是十分正常的！
所以我认为是，计算符号距离的锅。其实可以使用编辑距离！

利用 均分点 + 关键点 对序列进行分段，既考虑了序列自身概率分布的变化，又兼顾到序列形态的变化！！！
度量算法：改进为“基于关键点的相似性度量算法”，将符号序列转换为字符换的形式，并依据算法相关的符号距离计算公式 将字符距离转换为两时间序列间的相似度距离。【好像也没说清楚。。。】