Salient Subsequence Learning for Time Series Clustering论文笔记

Salient Subsequence Learning for Time Series Clustering

Qin Zhang, Jia Wu, Member, IEEE, Peng Zhang, Guodong Long, Chengqi Zhang, Senior Member, IEEE
TPAMI 2018

什么是shapelet?

shapelet是时间序列的子序列,具有判别性,其在某种意义上最大程度地代表类。

从树叶分类说起,自然是根据树叶的形状分类
在这里插入图片描述
将每个树叶用一个一维的时间序列来表示
在这里插入图片描述
根据shapelets分类
在这里插入图片描述

shapelets的优点
  • 可解释性好
  • 结果更精确,因为考虑的是局部特征,而非全局特征(很容易收到噪声和扭曲的影响)
  • 速度更快,时间复杂度为O(mn)(m为时间序列长度,n为shapelet长度)

主要贡献

  • USSL 无监督的shapelet学习,用于时间序列聚类,结合了pseudo-class labels, spectral analysis, regularized least-squares techniques and shapelet regularization
  • 在UCR Time Series数据集上进行了验证,是state-of-the-art

目前方法存在的问题

  • 最初通过扫描整个时间序列来获取shapelets的候选模板,时间复杂度很高

    Synthetic Control dataset 包含600个时间序列, 长度为60,候选模板有1.098 × 10^6个

  • 最近Grabocka等人提出一种基于回归学习的方法,寻找shapelets,大大减少了时间复杂度,但是需要标记

USSL框架

在这里插入图片描述

无监督的shapelet学习

  • Shapelet-transformed Representation

  • Pseudo-class Labels

  • Spectral Analysis

  • Least-squares Minimization

  • Shapelet Similarity Minimization

  • Unsupervised Salient Subsequence Learning
    在这里插入图片描述

    第一部分是谱正则化项,以保持时间序列之间的局部结构。第二部分通过最小化shapelets之间的相似性来使其多样化。第三部分则为学习最佳伪类标签和伪分类器的最小二乘正则化。

  • coordinate descent algorithm 坐标下降法

    当要优化的函数含有多个自变量时,每次只更新一个自变量,固定其他自变量

实验

数据集:UCR Time Series 中的36个时间序列
评价指标
  • Rand Index
    在这里插入图片描述
  • NMI(Normalized Mutual Information)
    在这里插入图片描述
实验结果
  • 等长的时间序列聚类
    在这里插入图片描述在这里插入图片描述

  • 不等长的时间序列聚类

在这里插入图片描述

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 8
    评论
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值