时间序列笔记:SAX(符号集合近似)时间序列表征/论文笔记 A Symbolic Representation of Time Series, with Implications for Stream

A Symbolic Representation of Time Series, with Implications for Streaming Algorithms 2003

将时间序列转换为字符

1 SAX 算法

1.1 主要符号表示

1.2 PAA 过程

沿着时间维度将一个时间序列切分成为w个片段(蓝色——>红色)

【一般建议先将将时间序列归一化,然后转换成PAA形式,这个对1.3步有帮助】

其中每一个阶段的值是这个阶段里面时间序列值的平均值

\frac{n}{w}称为压缩率,必须保证为整数

1.3 Symbol Representation过程

  • 1.2步中,对时间序列归一化+PAA后,归一化时间序列具有高斯分布
    • ——>方便实现时间序列的离散化。
  • symbol representation的意思是将PAA后每段红色的时间序列转化成一个离散符号(各个离散符号出现的概率相等)
    • 通过求取使得高斯分布被划分成等概率区间的断点序列B,然后通过断点列表B和PAA近似序列值完成符号化。

  • symbol representation之后的时间序列为

2 时间序列的距离度量

  • 时间序列常用的距离度量是欧几里德距离:

  • 对时间序列降维后,特征空间查询中容易出现漏报(false dismissals)的问题

    • 指原始空间中两点小于阈值δ,但降维后两点距离大于δ

  • 之前的论文提出了下界(Lower Bounding)定理来保证无漏报(false dismissals):

    • ——>这里PAA降维后的特征向量之间的距离小于等于原始序列之间的距离

    • ——>SAX表示的距离小于PAA表示的距离

  • 记PAA的距离度量为

  • SAX的距离度量

    • 注意:这边离散值的距离是,大的离散值代表的区间的下界限和小离散值代表区间的上界限相减得到距离

3 实验

3.1  聚类

可以看到,SAX 表现比较优秀,因为它正确地将每个类别分配到其自己的子树中

3.2 分类

SAX 算法拥有更好的分类准确性和稳定性

参考内容

时间序列表征之 SAX(Symbolic Aggregate approXimation)

时间序列符号聚合近似方法:SAX(Symbolic Aggregate Approximation) - 知乎 (zhihu.com)

  • 8
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UQI-LIUWJ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值