【Python数据科学快速入门系列 10】Matplotlib数据分布图表应用总结_matplotlib 分布图(4)

2401_84181273

于 2024-05-06 18:58:46 发布

阅读量564

点赞数 14

分类专栏：程序员文章标签： python matplotlib 开发语言

本文链接：https://blog.csdn.net/2401_84181273/article/details/138504805

版权

本文介绍了Python数据科学中Matplotlib库的使用，重点讨论了核密度估计曲线、箱形图和小提琴图。箱形图能清晰展示数据离散分布和异常值，适合定性对比分析；核密度图不受分组影响，呈现平滑分布；小提琴图结合了箱形图和核密度图的特点，适用于大量数据的概率密度展示。此外，文章强调了在选择图表时要考虑数据类型和比较需求。

摘要由CSDN通过智能技术生成

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

x - 数据集
bins - 分组数量，对应组距
alpha - 对应多个图例时，图例图表的透明度，可以同时展示多个图例
density - 将纵轴的频数转换为密度标识，所有的分组的的高度密度乘积之后为1
label - 图表的名称

2.2 核密度估计曲线

核密度估计图用于显示数据在X轴连续数据段内的分布状况，这种图表是直方图的变种，使用平滑曲线来绘制数值水平，从而得出更平滑的分布。其优于统计直方图的地方在于它们不受所使用分组数量的影响，所以能更好地界定分布形状。

import seaborn as sns

fig, ax = plt.subplots(figsize=(12, 9))

"""
展示鸢尾花不同特征的数据分布情况
"""
plt.rcParams["font.sans-serif"]=["WenQuanYi Micro Hei"] #设置字体
plt.rcParams["axes.unicode\_minus"]=False #该语句解决图像中的“-”负号的乱码问题

ax.hist(X_data[:, 0], bins=16, alpha = 0.7, density=True, color='hotpink', label="花萼长度")
ax.hist(X_data[:, 1], bins=16, alpha = 0.7, density=True, color='m', label="花萼宽度")
ax.hist(X_data[:, 2], bins=16, alpha = 0.7, density=True, color='green', label="花瓣长度")
ax.hist(X_data[:, 3], bins=16, alpha = 0.7, density=True, color='b', label="花瓣宽度")

sns.kdeplot(X_data[:, 0], ax=ax, color='hotpink')
sns.kdeplot(X_data[:, 1], ax=ax, color='m')
sns.kdeplot(X_data[:, 2], ax=ax, color='green')
sns.kdeplot(X_data[:, 3], ax=ax, color='b')

ax.legend()
p