python数据可视化玩转Matplotlib直方图、箱型图、密度图、正态分布、偏度和峰度

本文介绍了直方图、箱线图和密度图在数据分析中的应用,以及如何使用Python的matplotlib和seaborn库绘制这些图形。此外,还讨论了正态分布的重要性,并展示了如何绘制正态分布图。最后,提到了偏度和峰度作为描述数据分布形态的指标,以及如何计算和使用它们。
摘要由CSDN通过智能技术生成

目录

1. 直方图、箱线图和密度图

1.1 直方图

1.2 箱线图

1.3 密度图

2. 正态分布

3. 偏度和峰度

结论


1. 直方图、箱线图和密度图

直方图、箱线图和密度图是数据分析中十分常用的图形。它们可以帮助我们更好地理解数据的分布情况,从而更好地进行数据分析和处理。在这篇博客中,我们将介绍它们的基本原理、用途以及如何在Python中使用代码来实现。

1.1 直方图

直方图是一种常用的数据分布图,它将数据分成若干个区间,然后统计每个区间内数据的个数。通常情况下,直方图的横轴表示数据范围,纵轴表示数据出现的频数或者频率。直方图适用于连续性数据的分布情况。

下面是Python绘制直方图的代码,使用的是matplotlib库:

import matplotlib.pyplot as plt
import numpy as np

# 生成一组随机数据
data = np.random.randn(1000)

# 绘制直方图
plt.hist(data, bins=30, density=True, alpha=0.5,
         histtype='stepfilled', color='steelblue',
         edgecolor='none')
plt.title('Histogram')
plt.xlabel('Value')
plt.ylabel('Frequency')
plt.show()

其中,np.random.randn(1000)生成了1000个标准正态分布的随机数,plt.hist()函数用于绘制直方图,bins表示将数据分成的区间数量,density表示是否对频数进行归一化,alpha表示透明度,histtype表示直方图的类型,color表示填充颜色,edgecolor表示边框颜色。最后使用plt.show()函数显示图形。

在上面的代码中,我们设置了density=True,这样直方图的纵轴就表示概率密度,而不是频数。如果需要绘制频数直方图,只需要将density设置为False即可。

1.2 箱线图

箱线图是用于展示数据分布情况的一种图形,它由五个数值点组成:

  • 8
    点赞
  • 60
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
要在Statsmodels中绘制偏度(skewness plot)和峰度(kurtosis plot),可以使用`probplot()`函数。该函数既可以绘制偏度,也可以绘制峰度,具体取决于使用的参数。 下面是一个示例代码,展示如何使用Statsmodels绘制偏度峰度: ```python import numpy as np import matplotlib.pyplot as plt import statsmodels.api as sm # 生成一个正态分布的随机样本 np.random.seed(0) data = np.random.normal(loc=0, scale=1, size=1000) # 计算数据的偏度峰度 data_skewness = sm.stats.stattools.skew(data) data_kurtosis = sm.stats.stattools.kurtosis(data) # 绘制偏度 fig, ax = plt.subplots(1, 2, figsize=(12, 4)) sm.qqplot(data, ax=ax[0], line='s') ax[0].set_title('Skewness: {:.2f}'.format(data_skewness)) # 绘制峰度 sm.qqplot(data, ax=ax[1], line='s', fit=True) ax[1].set_title('Kurtosis: {:.2f}'.format(data_kurtosis)) plt.show() ``` 在上述代码中,我们首先生成一个正态分布的随机样本,然后使用`skew()`和`kurtosis()`函数分别计算数据的偏度峰度。接下来,我们使用`qqplot()`函数绘制偏度峰度,并在像标题中显示相应的偏度峰度值。 运行上述代码会生成一个包含数据集的偏度峰度像。偏度将数据集的分位数与理论的正态分位数进行比较,峰度则将数据集的分位数与理论的正态分位数及拟合的曲线进行比较。 希望这可以满足你的需求!如果还有其他问题,请随时提问。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大锤爱编程

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值