皮尔逊相关系数(Pearson Correlation Coefficient)可用于特征降维,如两个特征的皮尔逊相关系数值很高,则可删除其中一个特征。

皮尔逊相关系数(Pearson Correlation Coefficient),记作 皮尔逊相关系数(Pearson Correlation Coefficient)_标准差,是统计学中用于度量两个变量间线性相关程度的一个指标。它衡量的是两个变量的协变程度,且其值范围固定在 皮尔逊相关系数(Pearson Correlation Coefficient)_ci_02

  • 皮尔逊相关系数(Pearson Correlation Coefficient)_ci_03 时,表示两个变量完全正相关
  • 皮尔逊相关系数(Pearson Correlation Coefficient)_样本均值_04 时,表示完全负相关
  • 皮尔逊相关系数(Pearson Correlation Coefficient)_ci_05 时,表示两个变量没有线性相关性
计算公式

皮尔逊相关系数的计算公式为:

皮尔逊相关系数(Pearson Correlation Coefficient)_ci_06

其中:

  • 皮尔逊相关系数(Pearson Correlation Coefficient)_样本均值_07 分别是两个变量 皮尔逊相关系数(Pearson Correlation Coefficient)_样本均值_08皮尔逊相关系数(Pearson Correlation Coefficient)_标准差_09 的第 皮尔逊相关系数(Pearson Correlation Coefficient)_算法_10观测值。
  • 皮尔逊相关系数(Pearson Correlation Coefficient)_ci_11观测值的数量。
  • 皮尔逊相关系数(Pearson Correlation Coefficient)_ci_12 分别是变量 皮尔逊相关系数(Pearson Correlation Coefficient)_样本均值_08皮尔逊相关系数(Pearson Correlation Coefficient)_标准差_09样本均值。
  • 分子部分是两个变量的协方差(未标准化)。
  • 分母是两个变量各自标准差的乘积。
对公式的每个字符进行解释:
  • 皮尔逊相关系数(Pearson Correlation Coefficient)_ci_15:皮尔逊相关系数的值。
  • 皮尔逊相关系数(Pearson Correlation Coefficient)_标准差_16:求和符号,用来计算一系列数值的总和。
  • 皮尔逊相关系数(Pearson Correlation Coefficient)_样本均值_07:分别是两个变量 皮尔逊相关系数(Pearson Correlation Coefficient)_样本均值_08皮尔逊相关系数(Pearson Correlation Coefficient)_标准差_09
  • 皮尔逊相关系数(Pearson Correlation Coefficient)_ci_12:分别是变量 皮尔逊相关系数(Pearson Correlation Coefficient)_样本均值_08皮尔逊相关系数(Pearson Correlation Coefficient)_标准差_09 的样本均值,即所有 皮尔逊相关系数(Pearson Correlation Coefficient)_算法_23皮尔逊相关系数(Pearson Correlation Coefficient)_标准差_24
  • 皮尔逊相关系数(Pearson Correlation Coefficient)_ci_11:样本中观测值的总数。
  • 皮尔逊相关系数(Pearson Correlation Coefficient)_ci_26:这是每个观测值对协方差的贡献。
  • 皮尔逊相关系数(Pearson Correlation Coefficient)_算法_27皮尔逊相关系数(Pearson Correlation Coefficient)_样本均值_28:这是每个观测值对各自变量方差的贡献。
  • 皮尔逊相关系数(Pearson Correlation Coefficient)_样本均值_29:根号表示开方运算,用于计算标准差。

皮尔逊相关系数的计算需要两个变量的观测值都具有数值属性,并且通常假设数据服从正态分布,虽然在实际应用中,这一假设有时会被放宽。

这个系数有助于理解两个变量间的关系强度和方向,但并不能揭示因果关系。

此外,皮尔逊相关系数仅适用于检测线性关系,对于非线性关系,可能需要使用其他相关性度量。