Python学习-Scipy库统计操作(随机变量、概率密度、累积分布密度、期望、方差、描述性统计(最大最小值、均值、方差、偏差、峰度)、核密度估计)

最新推荐文章于 2025-03-20 11:40:19 发布

小样020

最新推荐文章于 2025-03-20 11:40:19 发布

阅读量7.8k

点赞数 5

分类专栏： python IT 文章标签： python 数据分析线性代数概率论 scipy

本文链接：https://blog.csdn.net/weixin_41387192/article/details/110186684

版权

IT 同时被 2 个专栏收录

24 篇文章

订阅专栏

python

20 篇文章

订阅专栏

Python学习-Scipy库统计操作

参数描述：
a: 样本数据，数组对象
axis: 指定数组的统计轴，值为整型或None，None计算整个数组
ddof: 三角自由度（仅限于方差），整型，默认1
bias: False，校正偏度和峰度计算，统计偏差
nan_policy: {‘propagate’, ‘raise’,‘omit’}, ‘propagate’：返回nan；‘raise’：抛出错误；‘omit’：忽略nan值
返回值：
nobs: 观察次数（沿轴的数据长度）
minmax: 最大最小值
mean: 均值
variance: 方差
skewness: 偏差
kurtosis: 峰度

设置数据集

plt.rc('font', family='simhei', size=15)  # 设置中文显示，字体大小
plt.rc('axes', unicode_minus=False)  # 该参数解决负号显示的问题
np.random.seed(1975)
x = stats.t.rvs(df=10, size=1000)  # 产生1000个自由度为10的t分布随机变量
plt.hist(x=x, bins=40, range=None, density=False, weights=None, cumulative=False, bottom=None, \
         histtype='stepfilled', align='mid', alpha=0.9, orientation='vertical', rwidth=None, log=False, \
         color='g', stacked=True, edgecolor='black')
plt.xlabel('概率分布区间')
plt.ylabel('频数or频率')
plt.title('分布直方图')
plt.show()

输出
在这里插入图片描述

print('min: ', x.min())  # 最小值
print('max: ', x.max())  # 最大值
print('mean: ', x.mean())  # 均值
print('variance: ', x.var())  # 方差

m, v, s, k = stats.t.stats(df=10, moments='mvsk')
n, (smin, smax), sm, sv, ss, sk = stats.describe(x)

s1 = '%-14s 均值 = %6.4f，方差 = %6.4f，费舍尔偏差 = %6.4f，费舍尔峰度 = %6.4f'
print(s1 % ('连续分布：', m, v, s, k))
print(s1 % ('离散样本：', sm, sv, ss, sk))

输出

min:  -4.0181014966326885
max:  6.2240174880715795
mean:  -0.06367299923581096
variance:  1.3075051415861059
连续分布：          均值 = 0.0000，方差 = 1.2500，费舍尔偏差 = 0.0000，费舍尔峰度 = 1.0000
离散样本：          均值 = -0.0637，方差 = 1.3088，费舍尔偏差 = 0.1155，费舍尔峰度 = 1.0614

6、核密度估计

核密度估计是在概率论中用来估计未知的密度函数，属于非参数检验方法之一。可以用于预测地理空间点数据的分布规律，或用于金融领域的基于密度的预测。

1）单变量估计

X = np.array([-8, -6, 0, 3, 5, 7], dtype=np.float)
X_plot = np.linspace(-10, 10, 100)  # 对于单变量要使用1D array
kde1 = stats.gaussian_kde(dataset=X, bw_method='scott')  # 高斯核密度估计
kde2 = stats.gaussian_kde(dataset=X, bw_method='silverman')  # 高斯核密度估计

plt.rc('font', family='simhei', size=15)  # 设置中文显示，字体大小
plt.rc('axes', unicode_minus=False)  # 该参数解决负号显示的问题

fig = plt.figure()
ax = fig.add_subplot(111)
ax.plot(X, np.zeros(X.shape), 'b+', ms=20)
ax.plot(X_plot, kde1(X_plot), 'k--', label='Scott')
ax.plot(X_plot, kde2(X_plot), 'g-', label='silverman')
plt.title('gaussian_kde')
plt.legend()
plt.show()

输出
在这里插入图片描述

2）多变量估计样例

# 2）多变量估计样例


def measure(n):
    m1 = np.random.normal(size=n)
    m2 = np.random.normal(scale=0.5, size=n)
    return m1+m2, m1-m2


m1, m2 = measure(2000)
xmin = m1.min()
xmax = m1.max()
ymin = m2.min()
ymax = m2.max()
X, Y = np.mgrid[xmin:xmax:100j, ymin:ymax:100j]
positions = np.vstack([X.ravel(), Y.ravel()])
values = np.vstack([m1, m2])
kernel = stats.gaussian_kde(values)
z = np.reshape(kernel.evaluate(positions).T, X.shape)
fig = plt.figure(figsize=(8, 6))
ax = fig.add_subplot(111)
ax.imshow(np.rot90(z), cmap=None, extent=[xmin, xmax, ymin, ymax])

ax.plot(m1, m2, 'k.', markersize=2)
ax.set_xlim([xmin, xmax])
ax.set_ylim([ymin, ymax])
plt.show()