scipy.stats.norm全方位解析

最新推荐文章于 2024-12-23 11:34:48 发布

铁松溜达py

最新推荐文章于 2024-12-23 11:34:48 发布

阅读量6k

点赞数 4

文章标签： python 机器学习概率论

本文链接：https://blog.csdn.net/book_dw5189/article/details/130895628

版权

scipy.stats.norm全方位解析_笔记大全_设计学院

一、简介

scipy.stats.norm模块是scipy库中用于正态分布的模块。它提供了统计数据和一些基本操作的计算，例如概率密度函数（PDF）、累积分布函数（CDF）和反函数。

在数据科学、统计学、金融学和物理学等领域，正态分布是最常用的分布之一。在这篇文章中，我们将深入探讨该模块的各个特性和用法。

二、概率密度函数（PDF）

概率密度函数（PDF）是在一个连续分布上定义的，它代表着在该分布中的每一个值的概率密度。在scipy.stats.norm模块中，可以使用pdf()函数来计算指定值的概率密度。

from scipy.stats import norm

x = 1.5
mean = 0
std_dev = 1
pdf_value = norm.pdf(x, mean, std_dev)
print("概率密度为:", pdf_value)

代码解析：

在上面的代码中，变量x表示指定的值，mean表示正态分布的均值（默认值为0），std_dev表示正态分布的标准差（默认值为1）。然后使用pdf()函数来计算值为x的概率密度，并将计算结果赋值给变量pdf_value。

三、累积分布函数（CDF）

累积分布函数（CDF）是在一个连续分布上的概率函数，它定义了随机变量小于或等于确定值的概率。在scipy.stats.norm模块中，可以使用cdf()函数来计算指定值的累积分布函数。

from scipy.stats import norm

x = 1.5
mean = 0
std_dev = 1
cdf_value = norm.cdf(x, mean, std_dev)
print("累积分布函数为:", cdf_value)

代码解析：

在上面的代码中，变量x表示指定的值，mean表示正态分布的均值（默认值为0），std_dev表示正态分布的标准差（默认值为1）。然后使用cdf()函数来计算值为x的累积分布函数，并将计算结果赋值给变量cdf_value。

四、反函数（PPF）

反函数（PPF）也称为百分点函数，是指定概率情况下，在分布内的值的函数。在scipy.stats.norm模块中，可以使用ppf()函数来计算在分布内的值。

from scipy.stats import norm

probability = 0.75
mean = 0
std_dev = 1
ppf_value = norm.ppf(probability, mean, std_dev)
print("反函数为:", ppf_value)

代码解析：

在上面的代码中，变量probability表示指定的概率（在0到1之间），mean表示正态分布的均值（默认值为0），std_dev表示正态分布的标准差（默认值为1）。然后使用ppf()函数来计算指定概率下的反函数，并将计算结果赋值给变量ppf_value。

五、随机样本生成

scipy.stats.norm模块还提供了一些函数用于生成随机样本，例如rvs()函数。在下面的例子中，我们将生成100个符合正态分布的随机数：

from scipy.stats import norm
import matplotlib.pyplot as plt

mean = 0 # 均值为0
std_dev = 1 # 标准差为1
data = norm.rvs(mean, std_dev, size=100)
plt.hist(data) # 绘制直方图
plt.show() # 显示绘制结果

代码解析：

在上面的代码中，变量mean表示正态分布的均值（默认值为0），std_dev表示正态分布的标准差（默认值为1），size表示要生成的随机样本数。然后使用rvs()函数生成符合正态分布的随机样本，并将结果赋值给变量data。最后使用matplotlib库中的hist()函数和show()函数分别绘制直方图和显示绘制结果。

六、拟合数据

在统计学中，拟合是将模型分配给数据的过程，以确定数据是否遵循该模型。在scipy.stats.norm模块中，可以使用fit()函数来拟合数据。

from scipy.stats import norm
import matplotlib.pyplot as plt

data = [1.2, 1.5, 1.6, 1.8, 2.0, 2.3, 2.6, 2.8, 2.9, 3.1] # 模拟数据
mean, std_dev = norm.fit(data) # 拟合数据
plt.hist(data, density=True) # 绘制直方图
x = np.linspace(min(data), max(data), num=100)
pdf = norm.pdf(x, mean, std_dev) # 计算概率密度函数
plt.plot(x, pdf) # 绘制概率密度函数
plt.show() # 显示绘制结果

代码解析：

在上面的代码中，变量data表示模拟数据。然后使用fit()函数来拟合数据，返回均值和标准差，并将结果分别赋值给变量mean和std_dev。最后使用matplotlib库中的hist()函数和plot()函数分别绘制直方图和概率密度函数，并使用show()函数显示绘制结果。

七、置信区间

置信区间是估计参数真实值的范围，在统计学中非常重要。在scipy.stats.norm模块中，可以使用interval()函数来计算置信区间。

from scipy.stats import norm

data = [1.2, 1.5, 1.6, 1.8, 2.0, 2.3, 2.6, 2.8, 2.9, 3.1] # 模拟数据
mean, std_dev = norm.fit(data) # 拟合数据
confidence_level = 0.95 # 置信水平为95%
lower, upper = norm.interval(confidence_level, loc=mean, scale=std_dev) # 计算置信区间
print("置信区间为:", (lower, upper))

代码解析：

在上面的代码中，变量data表示模拟数据。然后使用fit()函数来拟合数据，返回均值和标准差，并将结果分别赋值给变量mean和std_dev。然后使用interval()函数来计算置信水平为95%的置信区间，并将结果分别赋值给变量lower和upper。