起步
训练集中可能有若干维度的特征。但有时并不是所有特征都是有用的,有的特征其实和结果并没有关系。因此需要一个能衡量自变量和因变量之间的相关度。
皮尔逊相关系数
皮尔逊相关系数( Pearson correlation coefficient
),是用于度量两个变量 X 和 Y 之间的相关(线性相关),其值介于 -1 与 1 之间。
在说皮尔逊相关系数之前,要先理解协方差( Covariance
) ,协方差是一个反映两个随机变量相关程度的指标,如果一个变量跟随着另一个变量同时变大或者变小,那么这两个变量的协方差就是正值,反之相反,公式如下:
相关度越高,皮尔逊相关系数其值趋于 1 或 -1 (趋于1表示它们呈正相关, 趋于 -1 表示它们呈负相关);如果相关系数等于0,表明它们之间不存在线性相关关系。