【068】特征选择之 pearson 皮尔森系数 PimaIndiansdiabetes

本文介绍了皮尔森相关系数在分析Pima Indians diabetes数据集时的应用,探讨了如何处理缺失值,通过可视化和计算相关性来理解特征与糖尿病之间的关系。虽然没有强烈的线性相关性,但数据表明血糖水平与糖尿病结果有正相关性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

内容目录

一、pearson 皮尔森系数介绍二、pearson 皮尔森应用三、对皮尔森相关系数的通俗解

一、pearson 皮尔森系数介绍

        皮尔森相关系数是一种最简单的,能帮助理解特征和响应变量之间关系的方法,该方法衡量的是变量之间的线性相关性,结果的取值区间为[-1,1],-1表示完全的负相关,+1表示完全的正相关,0表示没有线性相关。

  Pearson Correlation速度快、易于计算,经常在拿到数据(经过清洗和特征提取之后的)之后第一时间就执行。Scipy的 pearsonr 方法能够同时计算 相关系数 和p-value。

优点:可以通过数字对变量的关系进行度量,并且带有方向性,1表示正相关,-1表示负相关,可以对变量关系的强弱进行度量,越靠近0相关性越弱。

缺点:无法利用这种关系对数据进行预测,简单的说就是没有对变量间的关系进行提炼和固化,形成模型。要利用变量间的关系进行预测,需要使用到下一种相关分析方法,回归分析。

使用场景:当两个变量的标准差都不为零时,相关系数才有定义,皮尔逊相关系数适用于:

  • 两个变量之间是线性关系,都是连续数据。

  • 两个变量的总体是正态分布,或接近正态的单峰分布。

  • 两个变量的观测值是成对的,每对观测值之间相互独立。

        相关系数也可以看成两个变量X、Y之间的协方差乘积和两者标准差乘积的比值:一种剔除了两个变量量纲影响、标准化后的特殊协方差

二、pearson 皮尔森应用

# numpy和panda用于数据操作
import numpy as np
import pandas as pd
df = pd.read_csv('.\PimaIndiansdiabetes.csv')
df.head()
   Pregnancies  Glucose  BloodPressure  SkinThickness  Insulin   BMI  DiabetesPedigreeFunction  Age  Outcome
0            6      148             72             35        0  33.6                     0.627   50        1
1            1       85             66             29        0  26.6                     0.351   31        0
2            8      183             64              0        0  23.3                     0.672   32        1
3            1       89             66             23       94  28.1                     0.167   21        0
4            0      137             40             35      168  43.1                     2.288   33    
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值