😊作者简介:大家好我是hellobigorange,大家可以叫我大橙子
💖本文摘要:本文讲述了两个时间序列(信号)的相关性分析,可以利用相关性分析进行特征筛选。此外本文还讲了怎么判断时间序列的滞后性的方法。
一、分析数据的相关性和滞后性的必要性
1.1 相关性
在使用机器学习模型对数据进行训练的时候,需要考虑数据量和数据维度,在很多情况下并不是需要大量的数据和大量的数据维度,这样会造成机器学习模型运行慢,且消耗硬件设备。除此之外,在数据维度较大的情况下,还存在”维度灾难“的问题。
在开展特征工程时,数据的降维方法思想上有两种
- 特征降维: 一种是例如主成分分析方法(PCA)破坏数据原有的结构从而提取数据的主要特征
- 特征选取: 按照一定的法则来对数据的属性进行取舍达到降维的目的。
- 相关性分析:分析特征和因变量(标签列)的相关性,保留相关性强的。
- 方差:对于方差太小的,说明特征的整体变化不大,可以剔除。
1.2 滞后性
有时候将某个特征滞后一定时间后, 得到一个新的特征, 可能会与目标变量有更强的相关性,个人理解,一般某个特征变量, 你有足够的专业知识或推断认为其可能存在滞后性后,