数据分析与挖掘1——数据探索

最新推荐文章于 2022-04-18 11:07:35 发布

Mrs.King_UP

最新推荐文章于 2022-04-18 11:07:35 发布

阅读量262

点赞数 1

分类专栏：数据分析与挖掘文章标签： python 数据分析

本文链接：https://blog.csdn.net/qq_38936560/article/details/120342121

版权

数据分析与挖掘专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1.变量识别

确定输入变量(特征)、输出变量(target)
确定数据类型——数值型数据、字符型数据
连续型变量&类别型变量

2.变量分析

单变量分析：箱型图和直方图，统计连续变量的中心分布趋势和变量分布；出现次数和占比衡量类别型变量

箱型图

import seaborn as sns
plt.subplot(7,8,0)#7行8列的子图，当前子图为第0号
sns.boxplot(train_data['sex'],orient='v',width=0.5)#orient竖直方向的箱型图；width箱型图宽度
plt.ylabel('sex',fontsize=6)

在这里插入图片描述

直方图

sns.distplot(train_data['V0'],fit=stats.norm)
#参数——fit:stats.norm拟合标准正态分布;hist：默认为True,控制是否显示条形图；kde：默认为True,控制是否显示是核密度估计图

在这里插入图片描述
2. 双变量分析

连续型&连续型：绘制两个变量间的散点图，可以看出两个变量间的线性关系；计算相关性，量化两变量间的相关性。np.corrrcoef(X,y)ortrain_data.corr()

#计算相关性——皮尔逊相关系数，0-0.09，没有相关性；0.1-0.3，弱相关性；0.3-0.5，中等相关性；0.5-1.0，强相关性
#仅能用于判别线性相关；且在连续型特征之间
pd.set_option('display.max_columns',10)#控制显示的表格的最大列数
pd.set_option('display.max_rows',10)
data_train=train_data.drop(['V2','V5','V11','V14','V17','V22'],axis=1)
train_corr=data_train.corr()
#绘图
ax=plt.figure(figsize=(20,16))
ax=sns.heatmap(train_corr,vmax=.8,square=True,annot=True)#annot方格内是否显示相关性系数；vmax颜色变化大小

筛选前10个与target变量最相关的特征变量

k=10
cols=train_corr.nlargest(k,'target')['target'].index# nlargest：一次能看到最大的前10行；输出索引
ax=plt.figure(figsize=(8,8))
ax=sns.heatmap(data_train[cols].corr(),vmax=.8,square=True,annot=True)#annot方格内是否显示相关性系数；vmax颜色变化大小

在这里插入图片描述
也可以设置相关性系数阈值

#设置相关性阈值选择特征
threshold=0.5
top_corr_feature=train_corr.index[abs(train_corr['target'])>threshold]
plt.figure(figsize=(10,10))
sns.heatmap(data_train[top_corr_feature].corr(),annot=True,cmap='RdYlGn')

在这里插入图片描述

类别型&类别型：双向表、堆叠柱状图、卡方检验
连续型&类别型：绘制小提琴图

sns.violinplot(train_data['v0','target'])

Mrs.King_UP

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
1
评论
数据分析与挖掘1——数据探索

1.变量识别确定输入变量(特征)、输出变量(target)确定数据类型——数值型数据、字符型数据连续型变量&类别型变量2.变量分析单变量分析：箱型图和直方图，统计连续变量的中心分布趋势和变量分布；出现次数和占比衡量类别型变量箱型图import seaborn as snsplt.subplot(7,8,0)#7行8列的子图，当前子图为第0号sns.boxplot(train_data['sex'],orient='v',width=0.5)#orient竖直方向的箱型图；w
复制链接

扫一扫