A Symbolic Representation of Time Series, with Implications for Streaming Algorithms 2003
将时间序列转换为字符
1 SAX 算法
1.1 主要符号表示
1.2 PAA 过程
沿着时间维度将一个时间序列切分成为w个片段(蓝色——>红色)
【一般建议先将将时间序列归一化,然后转换成PAA形式,这个对1.3步有帮助】
其中每一个阶段的值是这个阶段里面时间序列值的平均值
称为压缩率,必须保证为整数
1.3 Symbol Representation过程
- 1.2步中,对时间序列归一化+PAA后,归一化时间序列具有高斯分布
- ——>方便实现时间序列的离散化。
- symbol representation的意思是将PAA后每段红色的时间序列转化成一个离散符号(各个离散符号出现的概率相等)
- 通过求取使得高斯分布被划分成等概率区间的断点序列B,然后通过断点列表B和PAA近似序列值完成符号化。
- symbol representation之后的时间序列为
2 时间序列的距离度量
-
时间序列常用的距离度量是欧几里德距离:
-
对时间序列降维后,特征空间查询中容易出现漏报(false dismissals)的问题
-
指原始空间中两点小于阈值δ,但降维后两点距离大于δ
-
-
之前的论文提出了下界(Lower Bounding)定理来保证无漏报(false dismissals):
-
——>这里PAA降维后的特征向量之间的距离小于等于原始序列之间的距离
-
——>SAX表示的距离小于PAA表示的距离
-
记PAA的距离度量为
-
SAX的距离度量
-
注意:这边离散值的距离是,大的离散值代表的区间的下界限和小离散值代表区间的上界限相减得到距离
3 实验
3.1 聚类
可以看到,SAX 表现比较优秀,因为它正确地将每个类别分配到其自己的子树中
3.2 分类
SAX 算法拥有更好的分类准确性和稳定性
参考内容
时间序列表征之 SAX(Symbolic Aggregate approXimation)
时间序列符号聚合近似方法:SAX(Symbolic Aggregate Approximation) - 知乎 (zhihu.com)