2021-01-31

最新推荐文章于 2022-03-30 12:24:17 发布

qq_43505423

最新推荐文章于 2022-03-30 12:24:17 发布

阅读量262

点赞数

文章标签：数据挖掘机器学习大数据

本文链接：https://blog.csdn.net/qq_43505423/article/details/113478845

版权

数据可视化(数值变量)

连续性变量数据的可视化

hist
Kdeplot
kde可以观察数据的分布情况，也叫核密度估计
distplot
这个函数是将上面两个函数相结合，能够直接绘制出其数据散落的和分布的情况。
也可以通过手动设置bins的大小来观察对数据切分的效果，适合做独热编码形成新的特征，（泰坦尼克号）

连续的二元变量特征的数据的可视化，
即数据之间的关系进行可视化，主要是相关性分析

Scatterplot
通过此我们可以看到一些数据的分布规律，并且是否可以考虑聚类等因素，如下图所示，此数据为离散型数据，非连续型
Jointplot
Jointplot函数相比Scatterplot函数的区别主要是可以绘制其他的功能，也可以对其一些函数进行简单的拟合等。
其中颜色比较淡的地方表示数据比较少。
还可以会绘制kind=kde图
plot_joint和pairplot (bous)

plot_joint
该绘图可以将更多的图的表现形式呈现在上面

g=sns.jointplot(train['GRJCJS'],train['DKLL'],data=train,kind='kde',color=m')
g.plot_joint(plt.scatter,c='w',s=30,linewidth=1,marker='+')

g.ax_joint.collections[0].set_alpha(0)
#g.set_axis_labels('$','$')

在这里插入图片描述
pairplot（巨耗时，不建议）
该函数会绘制数据中所有特征两两之间的关系

#sns.pairplot(train)
g = sns.PairGrid(train)
g.map_diag(sns.kdeplot)
g.map_offdiag(sns.kdeplot,cmap="Blues_d",n_levels=6)
``

#每个维度数据的箱线图
f = pd.melt(train, value_vars=numerical_fea)
g = sns.FacetGrid(f, col=“variable”, col_wrap=2, sharex=False, sharey=False)
g = g.map(sns.boxplot, “value”)

#每个数字特征得分布可视化
f = pd.melt(train, value_vars=numerical_fea)
g = sns.FacetGrid(f, col=“variable”, col_wrap=2, sharex=False, sharey=False)
g = g.map(sns.distplot, “value”)