数据可视化(数值变量)
连续性变量数据的可视化
- hist
- Kdeplot
kde可以观察数据的分布情况,也叫核密度估计
- distplot
这个函数是将上面两个函数相结合,能够直接绘制出其数据散落的和分布的情况。
也可以通过手动设置bins的大小来观察对数据切分的效果,适合做独热编码形成新的特征,(泰坦尼克号)
连续的二元变量特征的数据的可视化,
即数据之间的关系进行可视化,主要是相关性分析
- Scatterplot
通过此我们可以看到一些数据的分布规律,并且是否可以考虑聚类等因素,如下图所示,此数据为离散型数据,非连续型
- Jointplot
Jointplot函数相比Scatterplot函数的区别主要是可以绘制其他的功能,也可以对其一些函数进行简单的拟合等。
其中颜色比较淡的地方表示数据比较少。
还可以会绘制kind=kde图 - plot_joint和pairplot (bous)
plot_joint
该绘图可以将更多的图的表现形式呈现在上面
g=sns.jointplot(train['GRJCJS'],train['DKLL'],data=train,kind='kde',color=m')
g.plot_joint(plt.scatter,c='w',s=30,linewidth=1,marker='+')
g.ax_joint.collections[0].set_alpha(0)
#g.set_axis_labels('$','$')
pairplot(巨耗时,不建议)
该函数会绘制数据中所有特征两两之间的关系
#sns.pairplot(train)
g = sns.PairGrid(train)
g.map_diag(sns.kdeplot)
g.map_offdiag(sns.kdeplot,cmap="Blues_d",n_levels=6)
``
#每个维度数据的箱线图
f = pd.melt(train, value_vars=numerical_fea)
g = sns.FacetGrid(f, col=“variable”, col_wrap=2, sharex=False, sharey=False)
g = g.map(sns.boxplot, “value”)
#每个数字特征得分布可视化
f = pd.melt(train, value_vars=numerical_fea)
g = sns.FacetGrid(f, col=“variable”, col_wrap=2, sharex=False, sharey=False)
g = g.map(sns.distplot, “value”)