【068】特征选择之 pearson 皮尔森系数 PimaIndiansdiabetes-CSDN博客

本文链接：https://blog.csdn.net/u010986753/article/details/105852614

本文介绍了皮尔森相关系数在分析Pima Indians diabetes数据集时的应用，探讨了如何处理缺失值，通过可视化和计算相关性来理解特征与糖尿病之间的关系。虽然没有强烈的线性相关性，但数据表明血糖水平与糖尿病结果有正相关性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

内容目录

一、pearson 皮尔森系数介绍二、pearson 皮尔森应用三、对皮尔森相关系数的通俗解

一、pearson 皮尔森系数介绍

皮尔森相关系数是一种最简单的，能帮助理解特征和响应变量之间关系的方法，该方法衡量的是变量之间的线性相关性，结果的取值区间为[-1，1]，-1表示完全的负相关，+1表示完全的正相关，0表示没有线性相关。

　　Pearson Correlation速度快、易于计算，经常在拿到数据(经过清洗和特征提取之后的)之后第一时间就执行。Scipy的 pearsonr 方法能够同时计算相关系数和p-value。

优点：可以通过数字对变量的关系进行度量，并且带有方向性，1表示正相关，-1表示负相关，可以对变量关系的强弱进行度量，越靠近0相关性越弱。

缺点：无法利用这种关系对数据进行预测，简单的说就是没有对变量间的关系进行提炼和固化，形成模型。要利用变量间的关系进行预测，需要使用到下一种相关分析方法，回归分析。

使用场景：当两个变量的标准差都不为零时，相关系数才有定义，皮尔逊相关系数适用于：

两个变量之间是线性关系，都是连续数据。
两个变量的总体是正态分布，或接近正态的单峰分布。
两个变量的观测值是成对的，每对观测值之间相互独立。

相关系数也可以看成两个变量X、Y之间的协方差乘积和两者标准差乘积的比值：一种剔除了两个变量量纲影响、标准化后的特殊协方差。

二、pearson 皮尔森应用

# numpy和panda用于数据操作
import numpy as np
import pandas as pd
df = pd.read_csv('.\PimaIndiansdiabetes.csv')
df.head()

   Pregnancies  Glucose  BloodPressure  SkinThickness  Insulin   BMI  DiabetesPedigreeFunction  Age  Outcome
0            6      148             72             35        0  33.6                     0.627   50        1
1            1       85             66             29        0  26.6                     0.351   31        0
2            8      183             64              0        0  23.3                     0.672   32        1
3            1       89             66             23       94  28.1                     0.167   21        0
4            0      137             40             35      168  43.1                     2.288   33