皮尔逊相关系数(Pearson Correlation Coefficient)可用于特征降维,如两个特征的皮尔逊相关系数值很高,则可删除其中一个特征。
皮尔逊相关系数(Pearson Correlation Coefficient),记作 ,是统计学中用于度量两个变量间线性相关程度
的一个指标。它衡量的是两个变量的协变程度
,且其值范围固定在
- 当 时,表示两个变量
完全正相关
; - 当 时,表示
完全负相关
; - 当 时,表示两个变量
没有线性相关性
。
计算公式
皮尔逊相关系数的计算公式为:
其中:
- 分别是两个变量 和 的第 个
观测值。
- 是
观测值的数量。
- 分别是变量 和 的
样本均值。
- 分子部分是两个变量的
协方差(未标准化)。
- 分母是两个变量
各自标准差的乘积。
对公式的每个字符进行解释:
- :皮尔逊相关系数的值。
- :求和符号,用来计算一系列数值的总和。
- :分别是两个变量 和
- :分别是变量 和 的样本均值,即所有 或
- :样本中观测值的总数。
- :这是每个观测值对协方差的贡献。
- 和 :这是每个观测值对各自变量方差的贡献。
- :根号表示开方运算,用于计算标准差。
皮尔逊相关系数的计算需要两个变量的观测值都具有数值属性
,并且通常假设数据服从正态分布
,虽然在实际应用中,这一假设有时会被放宽。
这个系数有助于理解两个变量间的关系强度和方向
,但并不能揭示因果关系。
此外,皮尔逊相关系数仅适用于检测线性关系,对于非线性关系,可能需要使用其他相关性度量。