【时间序列】时间序列分割聚类算法TICC

Hallac, David, et al. “Toeplitz Inverse Covariance-Based Clustering of Multivariate Time Series Data.” KDD. (2017).

本文是2017年KDD最佳论文,解决了高维时间信号的自动分割聚类问题,并给出了基于python的源码(戳这里下载)。

核心思想

在实际问题中有大量随时间变化的高维信号。

  • 驾驶汽车:油门,刹车,地理位置,空调,门窗…
  • 支付软件:用户的登陆,转入,提现,消费…

在没有标定的情况下,想发掘这些数据中隐藏的信息,即将信号划分为若干可能的状态,并标记每条信号的各段。

  • 驾驶汽车:起步,上坡,超车,拥堵…
  • 支付软件:用户发薪,过节,打新股…

这就需要同时对数据进行两种操作:

  • 将各条数据进行分割
  • 将分割结果各个聚类

传统聚类方法考察信号各维度的绝对值,以确定信号间的相似度;
本文算法考察信号各维度之间的相关性,以确定信号间的相似度。

建模

信号段

设有时间长度为 T T T的原始信号
x = [ x 1 , x 2 . . . x T ] \textbf {x}=\left[ x_1, x_2...x_T\right] x=[x1,x2...xT]

实际应用中,会有来自多个用户的多段原始信号。这里可以直接将它们连缀成一个向量。如果需要考虑绝对时刻,则可以将时间戳也作为一维信号增补上去。

其中每一时刻的信号 x i x_i xi n n n维向量。

为了便于考察信号相关性,以每一时刻为基准,向前截取宽度为 w w w的一段:
X i = [ x i − w + 1 , . . . x i − 1 , x i ] X_i=\left[ x_{i-w+1},...x_{i-1}, x_i\right] Xi=[xiw+1,...xi1,xi]

i = 1 , 2... T i=1,2...T i=1,2...T
信号段 X i X_i Xi n w nw nw维向量。

类别信息

预期将所有信号段划分为 K K K类,属于第 j j j类的信号段序号集合记为 P j , j = 1 , 2... K P_j, j=1,2...K Pj,j=1,2...K

举例:有信号段ABAAC, n = 5 n=5 n=5, K = 3 K=3 K=3 P 1 = [ 0 , 2 , 3 ] , P 2 = [ 1 ] , P 3 = [ 4 ] P_1=[0, 2, 3], P_2=[1], P_3=[4] P1=[0,2,3],P2=[1],P3

  • 24
    点赞
  • 150
    收藏
    觉得还不错? 一键收藏
  • 34
    评论
1. 数据准备 时间序列数据通常由一个向量表示,将向量转换为矩阵可以方便地进行聚类。 数据准备步骤: 1)将时间序列向量转换为矩阵,其中每一行表示一个时间点的数据。 2)对矩阵进行标准化处理,使得同一列的数据均值为0,方差为1。 例如,假设有5个时间序列数据: data1=[1 2 3 4 5]; data2=[2 3 4 5 6]; data3=[3 4 5 6 7]; data4=[4 5 6 7 8]; data5=[5 6 7 8 9]; 将这些数据转换为矩阵: data=[data1;data2;data3;data4;data5]; 进行标准化处理: data_norm=zscore(data); 2. k-means聚类算法实现 使用matlab自带函数kmeans实现k-means聚类算法。 语法: [idx,C,sumd,D]=kmeans(X,k); 其中, X:矩阵,每一行表示一个时间点的数据。 k:聚类数。 idx:向量,表示每个时间点所属的聚类编号。 C:矩阵,每一行表示一个聚类的中心点。 sumd:向量,表示每个聚类内的点到中心点距离的平方和。 D:矩阵,每一行表示每个时间点到对应聚类中心点的距离的平方。 例如,对标准化后的数据进行k-means聚类: [idx,C,sumd,D]=kmeans(data_norm,2); 其中,k=2表示聚类数为2。 3. 聚类结果可视化 将聚类结果可视化,方便观察聚类效果。 使用matlab自带函数plot绘制折线图。 例如,对聚类结果进行可视化: figure; hold on; for i=1:size(data_norm,1) if idx(i)==1 plot(data_norm(i,:),'r'); else plot(data_norm(i,:),'b'); end end hold off; xlabel('Time'); ylabel('Data'); legend('Cluster 1','Cluster 2'); title('K-means Clustering Results');

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 34
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值