0. 内容
- 时间序列局部特征构造的方法:SAX算法(符号集合近似法)
- 符号集合近似法下的距离定义
- 符号集合近似法除了可以降低时间序列的维度之外,还有数据压缩作用
一些时间序列分类问题可能涉及时间序列属性的差异,这些属性被限制在特定的有区别时间区间内,即所谓的局部特征。
1. SAX算法1
笼统地理解,SAX((Symbolic Aggregate approXimation,符号集合近似)算法是将时间序列转换为字符串。和傅里叶变换、小波变换类似的地方是:都是一种变换。但是和由时域变换到频域不同,SAX是将其变换成字符串。其优点是可以借助丰富的字符串的数据结构和算法来分析时间序列。
SAX算法的实现的效果:
- 降低原始序列数据的维度;
- 保留了数据的局部特征信息;
- 对 数据噪声有一定承受能力,分段既消除噪声又实现了数据平滑;
- 使得字符化后的序列上定义的距离和原始序列距离有强相关性,进一步说是保持序列变换前后的下界距离一致性;
符号约定:
- C = c 1 , c 2 , . . . , c n C=c_1,c_2,...,c_n C=c1,c2,...,cn是一个时间序列
- C ˉ = c ˉ 1 , c ˉ 2 , . . . , c ˉ w \bar C=\bar c_1, \bar c_2,...,\bar c_w Cˉ=cˉ1,cˉ2,...,cˉw是一个分段聚集近似序列(Piecewise Aggreate Approximation, PAA)
- C ^ = c ^ 1 , c ^ 2 , . . . , c ^ w \hat C=\hat c_1,\hat c_2,...,\hat c_w C^=c^1,c^2,...,c^w符号表示得到的序列
- w w w:PAA表示原始时间序列 C C C的片段数目
- a a a:字母表集合大小 ,例如,字母表集合 ={ a , b , c a,b,c a,b,c},则 a = 3 a=3 a=3;
粗略描述SAX算法流程:
- 将原始时间序列Z-score标准化;
- 将标准化后的时间序列 C C C转换成PAA序列 C ˉ \bar C Cˉ(分段聚集近似序列);
- 然后将PAA序列 C ˉ \bar C Cˉ转换成字符序列 C ^ \hat C C^;
下面是细致的阐述:
1.1 PAA近似序列 C ˉ \bar C Cˉ
将n维 C = c 1 , c 2 , . . . , c n C=c_1,c_2,...,c_n C=c1,c2