Python计算任意数据的分布函数(累积概率函数CDF)与概率密度(PDF),并绘图

该博客介绍了如何利用Python的scipy库中的relfreq方法来处理不确定分布的数据,并绘制概率密度函数(PDF)和累积分布函数(CDF)曲线。通过构造正态分布数据,设置合适的bin数量,计算PDF值和CDF值,然后使用matplotlib进行可视化展示。此方法适用于没有明确分布函数的数据集,帮助理解数据分布特性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

分布函数求导就是概率密度,在任意的数据中由于数据分布不确定,所以严格来讲这些数据是没有分布函数和概率密度函数的,但是我们就是想得出那种结果,画出那种曲线,这里就需要借助scipy.stats.relfreq这个方法,它可以拟合这样的结果

得到CDF、PDF曲线对应的值

需要导包:

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

%matplotlib inline
  1. 首先构造数据:

    data = np.random.normal(0,10,100) # 生成100个随机数,这里生成正态分布,任意分布都行,正态分布效果更明显一些
    res_freq = stats.relfreq(data, numbins=20) # numbins 是统计一次的间隔(步长)是多大
    
  2. 概率密度PDF

    pdf_value = res_freq.frequency
    
  3. 累积分布CDF

    cdf_value = np.cumsum(res_freq.frequency)
    

开始绘图

首先确定横坐标,这里横坐标需要使用线性计算计算得出,不能直接调属性:

x = res_freq.lowerlimit + np.linspace(0, res_freq.binsize * res_freq.frequency.size, res_freq.frequency.size)

PDF的图像

plt.bar(x, pdf_value, width=res_freq.binsize)

在这里插入图片描述

CDF的图像

plt.plot(x, cdf_value)

在这里插入图片描述

完整代码

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
%matplotlib inline


# 构造数据
data = np.random.normal(0,10,100)
res_freq = stats.relfreq(data, numbins=100)
# 计算结果
pdf_value = res_freq.frequency
cdf_value = np.cumsum(res_freq.frequency)
# 绘图
x = res_freq.lowerlimit + np.linspace(0, res_freq.binsize * res_freq.frequency.size, res_freq.frequency.size)
plt.bar(x, pdf_value, width=res_freq.binsize)
plt.plot(x, cdf_value)

参考资料

评论 31
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

呆萌的代Ma

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值