写在前面:《模式识别与人工智能》;2007年
1 摘要
- 针对含有大量噪声,并存在数据缺失的高维多元时间序列数据;
- 本文提出一种基于斜率表示的时间序列相似性度量方法
- 该方法是在线性分段的基础上,对两个序列间的斜率差进行加权,因而物理概念更为明确
2 引言
-
近年来,有关相似性搜索的问题,成为一个研究热点,主要包括降维、特征提取、相似性度量、相似性搜索等问题。
【什么是一个合理的相似性度量,要能够自圆其说】 -
欧式距离、普通规范距离、动态时间弯曲距离、模式距离、最小距离等等。这些在不同的背景下,都可以作为相似性度量。(度量相似性的有效方法)
-
模式距离,更接近自然语言描述,模式定义的物理意义明确,划分更趋合理,但是其表示方法比较粗糙,得出的结论不够明确,因此,本文在此基础上提出一种基于斜率距离的相似性度量。
3 介绍时间序列的斜率集表示
3.1 模式的概念
时间序列的模式,表征为序列中的某个子集单一变化趋势。
3.2 斜率集
3.3 斜率集搜索算法
- 该算法,将时间序列分段 线性模型 转化为斜率,得到具有 n-1 个以斜率表示的时间序列。
3.4 模式距离
这个地方还是可以理解的,比如说“上升”和“下降”之间的距离是2,而“上升”和“保持”之间的距离就是1。
3.5 斜率距离分析
3.6 时间对等过程
- 由于两个序列在分段直线化以后,各个极值点对应的时间不会完全一致,长度也不尽相同。
- 所以必须进行时间对等过程后,才能使用这种算法。
- 时间对等过程,就是按照序列的极值点重新划分直线区间,使得序列能够等长,符合算法要求!
【有理有据,令人信服。十几年前的的学术文章还是非常的科学,不像现在的文章,拼七凑八…】
4 实验分析
- 每条序列的数据是2800个。