分布类相关可视化图像总结

一、直方图(Histogram)
特点
数据分布展示:通过矩形条的高度反映数据在各个区间的频数或频率,适用于连续型数据。
区间划分:需指定 bins(区间数),结果受 bins 大小影响较大。
形状解读:可直观显示数据的中心位置、分布范围、偏态、峰值等。
应用场景
探索单变量连续数据的分布形态(如是否服从正态分布)。
比较不同分组数据的分布差异(如分面直方图)。
代码与效果:​​
在这里插入图片描述

注意事项
bins 参数:
若 bins 过少,可能掩盖数据细节;过多则可能导致分布碎片化。
可使用 bins=‘auto’(自动计算)或 np.linspace 自定义区间。
归一化:
density=True 时显示概率密度(面积之和为 1),否则为频数。
分组比较:
可通过 histtype=‘stepfilled’ 或分面(subplot)展示多组数据。
二、密度图(Density Plot)
特点
平滑曲线:通过核密度估计(KDE)生成连续曲线,展示数据的概率密度分布。
无区间划分:比直方图更平滑,适合展示多组数据的分布对比。
叠加显示:可在同一图中叠加多条密度曲线。
应用场景
对比多组连续数据的分布(如不同类别的特征分布)。
结合直方图使用,增强分布展示的细节。
代码与效果在这里插入图片描述

注意事项
带宽参数(bw_adjust):
控制曲线平滑程度,bw_adjust 越小,曲线越尖锐(如 bw_adjust=0.5)。
多组数据对比:
使用 hue 参数区分组别(需配合 DataFrame 输入):
python

sns.kdeplot(data=df, x=‘value’, hue=‘group’, multiple=‘stack’)
边缘分布:
结合 sns.jointplot 展示二维数据的边缘密度分布。
三、箱线图(Box Plot)
特点
统计摘要展示:通过四分位数(Q1, Q2, Q3)、异常值、全距(IQR)展示数据分布。
抗噪性强:不受极端值影响,适合识别异常值和比较组间分布差异。
矩形箱体:箱体上下边为 Q1 和 Q3,中线为中位数,须线为正常值范围。
应用场景
比较不同组别数据的分布位置、离散程度和偏态。
快速检测数据中的异常值(超出须线范围的点)。
代码与效果:在这里插入图片描述

注意事项
方向与分组:
vert=False 生成横向箱线图;传入多组数据可绘制分组箱线图。
异常值判定:
默认异常值为超出 Q1-1.5IQR 或 Q3+1.5IQR 的点,可通过 whis 参数调整(如 whis=3 扩大须线范围)。
美观优化:
使用 sns.boxplot 结合 Seaborn 样式,或通过 patch_artist 自定义箱体颜色。
四、小提琴图(Violin Plot)
特点
综合展示:左侧为箱线图,右侧为密度图的镜像翻转,同时显示分布形态和统计量。
细节丰富:比箱线图更直观展示数据的概率密度和峰值位置。
对称性判断:通过左右密度曲线是否对称判断数据偏态。
应用场景
需要同时展示数据分布形态和统计摘要的场景。
对比多组数据的分布细节(如不同类别下的特征分布差异)。
代码与实现
​​​​​​在这里插入图片描述

注意事项
内部统计量:
inner 参数控制内部显示内容:‘box’(箱线图)、‘quartile’(四分位数)、None(仅密度图)。
带宽与核函数:
同密度图,可通过 bw_adjust 和 kernel 参数调整曲线平滑度和核函数类型。
分组与顺序:
传入分类变量时,可通过 order 参数指定组别顺序。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值