2021-01-31

数据可视化(数值变量)

连续性变量数据的可视化

  1. hist
    该方法可以直观看到数据散落各个区间的情况,其中默认被分为十个箱体
  2. Kdeplot
    kde可以观察数据的分布情况,也叫核密度估计
  3. distplot
    这个函数是将上面两个函数相结合,能够直接绘制出其数据散落的和分布的情况。
    也可以通过手动设置bins的大小来观察对数据切分的效果,适合做独热编码形成新的特征,(泰坦尼克号)
    在这里插入图片描述

连续的二元变量特征的数据的可视化,
即数据之间的关系进行可视化,主要是相关性分析

  1. Scatterplot
    通过此我们可以看到一些数据的分布规律,并且是否可以考虑聚类等因素,如下图所示,此数据为离散型数据,非连续型
    在这里插入图片描述
  2. Jointplot
    Jointplot函数相比Scatterplot函数的区别主要是可以绘制其他的功能,也可以对其一些函数进行简单的拟合等。
    其中颜色比较淡的地方表示数据比较少。
    还可以会绘制kind=kde图在这里插入图片描述
  3. plot_joint和pairplot (bous)

plot_joint
该绘图可以将更多的图的表现形式呈现在上面

g=sns.jointplot(train['GRJCJS'],train['DKLL'],data=train,kind='kde',color=m')
g.plot_joint(plt.scatter,c='w',s=30,linewidth=1,marker='+')

g.ax_joint.collections[0].set_alpha(0)
#g.set_axis_labels('$','$')

在这里插入图片描述
pairplot(巨耗时,不建议)
该函数会绘制数据中所有特征两两之间的关系

#sns.pairplot(train)
g = sns.PairGrid(train)
g.map_diag(sns.kdeplot)
g.map_offdiag(sns.kdeplot,cmap="Blues_d",n_levels=6)
``




#每个维度数据的箱线图
f = pd.melt(train, value_vars=numerical_fea)
g = sns.FacetGrid(f, col=“variable”, col_wrap=2, sharex=False, sharey=False)
g = g.map(sns.boxplot, “value”)


#每个数字特征得分布可视化
f = pd.melt(train, value_vars=numerical_fea)
g = sns.FacetGrid(f, col=“variable”, col_wrap=2, sharex=False, sharey=False)
g = g.map(sns.distplot, “value”)


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值