计算机技术 广西民族大学学报(自然科学版) 第 16 卷第 3 期 JOURNAL OF GUANGXI UNIVERSITY FOR NATIONALITIES Vol. 16 No. 3 2010 年 9 月 ( Natural Science Edition) Sep. 2010 基于 SPDTW 的快速时间序列聚类方法3陈建荣 ,王 勇 ( 1. 右江民族医学院 教务处 ,广西 百色 533000; 2. 广西民族大学 数学与计算机科学学院 ,广西 南宁 530006) 摘 要 : 提出了一种新的时间序列数据压缩方法 ,Stratified Piecewise Aggregate Approximation(分层逐段 聚集近似) ,简称 SPAA. SPAA具备多分辨率的特点 ,能够根据给定的参数 ,对时间序列进行不同 等级的压缩. 作者结合 DTW算法的特点 ,进一步提出了一种新的 SPDTW 算法. 实验表明 ,SP2DTW 算法能够在聚类精度基本保持不变的情况下 ,大大加快聚类的速度. 通常能够比 DTW 算法快几个数量级. 关键词 : 数据挖掘;时间序列;维数约简;分层逐段聚集近似;分层分段动态时间弯曲 中图分类号 : TP311 文献标识码 : A 文章编号 :1673 - 8462(2010) 03 - 0046 - 06 0 引言 时间序列数据挖掘的研究越来越受到人们的关注. Das G[1] 等人提出时间序列关联规则发现的方法. Debregeas A[2]等人提出一种能够应用于大型时间序列数据库聚类分析的挖掘算法. Keogh E[3] 等人则提出一种新的规模可变的时间序列分类算法等等. 他们的研究重点都集中于有关时间序列的相似性度量与搜索问题 ,且主要以欧氏距离为度量. 为了克服欧氏距离对时间轴的拉伸和压缩十分敏感的缺点 , Berndt [4]等人将动态数据弯曲(Dynamic Time War2ping , DTW)算法应用于数据挖掘 ,用来处理时间序列的相似性问题 ,并取得了一定的成效. 然而 , DTW 算法的时间复杂度相对较高 ,计算量呈现指数级增长 ,这使得它的应用范围受到了一定的限制. 为了克服 DTW 算法的缺点 ,Yi[5]等人提出使用设置计算窗 口的方法来降低计算量. Keogh[6]等人提出了 PDTW 算法来降低 DTW 的计算量. 文献[7 ]则通过提取时间序列波动点的方法来降低 DTW 的计算量. 由于时间序列具有高维的数据特征 ,而数据挖掘需要处理的时间序列数据库通常是非常庞大的. 这使得很多传统的数据处理算法都无法在可接受的时间内对时间序列数据库进行相应的处理. 因此 ,如何降低时间序列数据的维数的研究受到了广泛的关注. Agrawal [8]等人提出利用离散傅立叶变换 (DFT) 对 时间序列进行维数压缩. Korn F [9]等人利用奇异值分解(SVD) 方法对时间序列进行数据压缩. Chan K 等人[10]应用离散小波变换 (DWT) 方法对时间序列进行数据压缩. Keogh[11 ,12]等人则提出了用于时间序列维数约简的 PAA 和 APCA 算法. 文献[12]对时间序列的压缩方法是 ,先采用小波分解将时间序列进行 643收稿日期 :20100712. 基金项目 :广西自然科学基金项目(0832084) ;广西民族大学数学与计算机科学学院科研基金资助课题. 作者简介 :陈建荣(19822) ,男 ,广西百色
matlab的dtw聚类,基于SPDTW的快速时间序列聚类方法
最新推荐文章于 2024-05-12 10:27:05 发布