皮尔逊系数

皮尔逊系数
测量列之间的线性关系,该系数在-1,1变化,0代表没有线性关系
要求:每列是正态分布的,在很大的程度上,可以忽略这个要求,因为数据集很大

import seaborn as sns
import matplotlib.style as style
#自动选择最相关的特征进行展示,不过我们关注的是特征与响应变量之间的相关性
style.use('fivethirtyeight')
sns.heatmap(df.corr())

在这里插入图片描述

#用代码隔离特征与响应变量之间的相关性
df.corr()['target']

在这里插入图片描述

#只留下相关系数超过正负0.7的特征
df.corr()['target'].abs()>0.7

在这里插入图片描述

#存储特征
highly_correlated_features=df.columns[df.corr()['target'].abs()>0.7]
highly_correlated_features
#删掉响应变量
highly_correlated_features=highly_correlated_features.drop('target')
highly_correlated_features

X_subsetted=df[highly_correlated_features]
get_best_model_and_accuracy(d_tree,tree_params,X_subsetted,df['target'])

在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值