数据分析与挖掘1——数据探索

1.变量识别

  1. 确定输入变量(特征)、输出变量(target)
  2. 确定数据类型——数值型数据、字符型数据
  3. 连续型变量&类别型变量

2.变量分析

  1. 单变量分析:箱型图和直方图,统计连续变量的中心分布趋势和变量分布;出现次数和占比衡量类别型变量

箱型图

import seaborn as sns
plt.subplot(7,8,0)#7行8列的子图,当前子图为第0号
sns.boxplot(train_data['sex'],orient='v',width=0.5)#orient竖直方向的箱型图;width箱型图宽度
plt.ylabel('sex',fontsize=6)

在这里插入图片描述

直方图

sns.distplot(train_data['V0'],fit=stats.norm)
#参数——fit:stats.norm拟合标准正态分布;hist:默认为True,控制是否显示条形图;kde:默认为True,控制是否显示是核密度估计图

在这里插入图片描述
2. 双变量分析

  • 连续型&连续型:绘制两个变量间的散点图,可以看出两个变量间的线性关系;计算相关性,量化两变量间的相关性。np.corrrcoef(X,y)ortrain_data.corr()
#计算相关性——皮尔逊相关系数,0-0.09,没有相关性;0.1-0.3,弱相关性;0.3-0.5,中等相关性;0.5-1.0,强相关性
#仅能用于判别线性相关;且在连续型特征之间
pd.set_option('display.max_columns',10)#控制显示的表格的最大列数
pd.set_option('display.max_rows',10)
data_train=train_data.drop(['V2','V5','V11','V14','V17','V22'],axis=1)
train_corr=data_train.corr()
#绘图
ax=plt.figure(figsize=(20,16))
ax=sns.heatmap(train_corr,vmax=.8,square=True,annot=True)#annot方格内是否显示相关性系数;vmax颜色变化大小

筛选前10个与target变量最相关的特征变量

k=10
cols=train_corr.nlargest(k,'target')['target'].index# nlargest:一次能看到最大的前10行;输出索引
ax=plt.figure(figsize=(8,8))
ax=sns.heatmap(data_train[cols].corr(),vmax=.8,square=True,annot=True)#annot方格内是否显示相关性系数;vmax颜色变化大小

在这里插入图片描述
也可以设置相关性系数阈值

#设置相关性阈值选择特征
threshold=0.5
top_corr_feature=train_corr.index[abs(train_corr['target'])>threshold]
plt.figure(figsize=(10,10))
sns.heatmap(data_train[top_corr_feature].corr(),annot=True,cmap='RdYlGn')

在这里插入图片描述

  • 类别型&类别型:双向表、堆叠柱状图、卡方检验
  • 连续型&类别型:绘制小提琴图
sns.violinplot(train_data['v0','target'])
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Mrs.King_UP

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值