时间序列_第一篇知识概述（1）_时间序列的全局数据特征-CSDN博客

本文深入探讨了时间序列的基本概念，分析了其在医疗、科技、金融等领域的广泛应用，并详细阐述了时间序列分析的难点。文章重点介绍了相似度度量方式，包括欧式距离和动态时间规整法（DTW），并对比了两种方法的优劣。同时，文中还讨论了基于模型或结构层面的相似度测量，为读者提供了全面的时间序列分析视角。

摘要由CSDN通过智能技术生成

1. 什么是时间序列

时间序列是一系列的观测点按照时间顺序排序的集合。时间序列是无处不在的。

一个人几个月来的血压变化情况
某个明星的欢迎度评分变化趋势
某城市近几年的降雨量
某只股票的变化趋势
时间序列遍布在医疗、科技、金融等各个邻域

1.1 高维特征转成一维信号

可以将高维形状转化为一维的信号，然后移除信号中的scale和offset（缩放和偏移），再送给我们的算法进行分析。
Alt

如文本类数据，可被看做时间序列进行处理！
如视频类数据，也可被看做为时间序列进行处理！【将视频中人物一系列的动作，分解成一个个的时间步骤，分解为：手向下->手抬起皮套位置->手拿出枪->手移动至肩膀高度->稳定射击】

类似地，还有手写体数据、3D模型等数据，也都适合看做时间序列数据进行分析。

1.2 时间序列分析难点

对于大型的时间序列数据数据量巨大且难以分析。因此需要一种时间序列的表示方法，将它们加载到内存中以便与操作与分析
分析带有一定的主观性。对于不同用户、领域、任务来说，相似性的度量标准不尽相同
时间序列自身的繁杂性（不同的数据格式，不同的采样比，噪音和缺失值等问题）

1.3 时间序列可做事情

在这里插入图片描述

2. 相似度及度量方式

相似度很难定义，但是 We know it when we see it.

2.1 不同数据类型，相似度讨论

2.1.1 文本类型的相似

单个词语层面上的相似
整体结构层面上的相似

2.1.2 时间序列的相似

形状层面上的相似
结构层面上的相似

2.2 距离度量标准特性

定义：设O1和O2是原始空间中的两个对象。则距离（相异度）定义为D(O1,O2)

对称性 D(A,B)=D(B,A)
恒定性 D(A,A)=0
正值性 D(A,B)=0 IF A=B, 即如果AB不相等，那么距离一定大于0
三角不等性 D(A,B)≤D(A,C)+D(B,C)

2.3 Euclidean Distance（欧式距离 ED）

Alt
如果直接计算两条时间序列的欧式距离，那么很可能得不到非常理想的结果。因为欧式距离对于信息中存在的异常值是非常敏感的。所以在计算之前，一定要先消除这些异常！！！！！

2.3.1 Offset Translation(偏移转换)

可以看到，处理之前，二者的欧式距离非常大，处理之后，红线向下平移，蓝线向上平移，最终二者的欧式距离变得很小。

2.3.2 Amplitude Scaling(振幅缩放)

在这里插入图片描述
这里进行了零均值归一化处理，也称为Z_Score Normalization,这是因为两条时间序列的量纲不同，归一化之后，二者的欧式距离也明显减小。

2.3.3 Linear Trend（线性趋势）

在这里插入图片描述

2.3.4 Noise（噪音）

在这里插入图片描述
使用平滑方法之后，两条时间序列的欧式距离也变小了。

2.3.5 举例及总结

演示数据预处理过程
过程总结
☆ 原始时间序列数据可能存在失真的问题，因此应该在聚类、分类等分析前将其消除。
☆ 有时，失真是数据中最有趣的事情，上述只是一般的规则。
☆ 在考虑以后将要遇到的时间序列（DFT，Wavelets等）的高级表示形式时，我们应该牢记这些问题。由于这些表示形式通常使我们能够以优雅的方式处理失真。

2.4 Dynamic Time Warping（动态时间规整法 DTW）

动态时间规整法是一种衡量两个时间序列之间相似度的方法，它的时间轴可以是扭曲的（warping）。主要应用在语音识别领域来识别两段语音是否表示同一个单词。
在这里插入图片描述

2.4.1 DTW原理

在时间序列中，需要 1. 比较相似性的两段时间序列的长度可能并不相等【在语音识别领域表现为不同人的语速不同。而且同一个单词内的不同音素的发音速度也不同，比如有的人会把“A”这个音拖得很长，或者把“i”发的很短】。2. 不同时间序列可能仅仅存在时间轴上的位移，亦即在还原位移的情况下，两个时间序列是一致的
DTW通过把时间序列进行延伸和缩短，来计算两个时间序列之间的相似性。
在这里插入图片描述
如上图所示，上下两条实线代表两个时间序列，时间序列之间的虚线代表两个时间序列之间的相似的点。
DTW使用所有这些相似点之间的距离的和，称之为归整路径距离(Warp Path Distance)来衡量两个时间序列之间的相似性。

2.4.2 DTW计算

构建一个行数为||Q||，列数为||C||的矩阵，矩阵中的每一个元素值等于两条时间序列中对应点的欧式距离
希望能够找到一条，穿过矩阵元素和最小的一条路径。

2.4.3 ED与DTW在不同场景下的对比

在这里插入图片描述
☆ 错误率：使用1个最近邻居，一劳永逸！
☆ 计算时间：DTW比欧几里得距离慢两到三个数量级

2.4.4 DTW的改进

DTW法具有的特点：
☆ DTW度量法在绝大多数情况下比欧式距离度量法效果好；
☆ DTW度量法的缺点是计算时间非常长，是欧式距离法的几百倍。
于是我们接下来对其改进，尽量在保证精度的前提下，提升程序的计算速度。
改进一：DTW距离的快速近似（fast approximations）
通过下采样或者压缩算法来表示原始的矩阵，效果如下：
在这里插入图片描述
可以看到下采样之后，DTW仍表现出不错的效果，时间也缩短了很多倍，这个方法在聚类和分类等问题中，经过实验的证实的确有用。
改进二：全局约束

轻微加快计算速度
防止病态的扭曲
一般有两种全局约束的方式，全局约束体现在：约束规整路径warping path中的元素，下标 i，j 满足 j-r ≤ i ≤ j+r
规整窗口的大小与精度的关系变化趋势

2.4.5 lowerbounding（下界）

在这里插入图片描述
根据定义，对于所有的时间序列A和B，都有：
lower_bound_distance(A,B)≤DTW(A,B)
Lower_Bounding_Sequential_Scan(Q)算法
主要特点：减少了计算DTW这种耗时操作的次数，仅在LB_dist< best_so_far 的时候才会进行DTW的计算，大多数时候，用不太耗时的lower_bound_distance()进行代替。
在这里插入图片描述

Lower Bound of Yi，简称LB_Yi
由Yi,B,Jagadish等人于Efficient retrieval of similar time sequences under time warping提出：
灰色线的平方和代表相应点对整个DTW距离的最小贡献，因此可以作为下界返回。
Lower Bound of Kim，简称LB_Kim
由Kim,S,Park等人于An index-based approach for similarity search supporting time warping in large sequence databases提出：

两个序列的第一（A）、最后（D）、最小（B）和最大点（C）之间的平方差作为下界返回。
Lower Bound of Keogh，简称LB_Keogh

2.5 基于模型或结构层面的相似度

基本思想：抽取时间序列的全局特征，组成一个特征向量，然后计算这些特征向量之间的相似度。核心是两点：features 和 distance measure/ learning argorithm

基于特征的时间序列数据分析
这里的特征是时间序列的数值特征。如均值、方差、偏度以及它们的一阶导等
识别时间序列：将ARMA模型和基于记忆的学习结合起来
基于压缩的不相似性

2.6 时间序列相似度总结

如果时间序列较短，在搜寻得到合适的 warping window size之后，使用 DTW 作为相似度度量标准，然后使用基于envelope的下界来加快 DTW 的计算速度；
如果时间序列较长，而且你对数据也了解不多，可以尝试基于压缩的不相似性度量；
如果时间序列较长，但是你对数据有一定的了解，那么可以利用相关知识来手动抽取特征；