常用统计分布

最新推荐文章于 2024-05-26 18:47:31 发布

热爱学习的小昕同学

最新推荐文章于 2024-05-26 18:47:31 发布

阅读量377

点赞数

分类专栏：笔记文章标签：统计学 python

本文链接：https://blog.csdn.net/qq_43553493/article/details/112122496

版权

笔记专栏收录该内容

11 篇文章 2 订阅

订阅专栏

统计分布

概率论知识
概率分布
python绘图

本篇文章整理总结了《统计机器学习导论》([日] 衫山将)中关于概率分布的部分。（有一些本人也还没搞懂，但是也先记录下来了。）
因为内容比较多，所以难免会有错误的地方，欢迎各位指正，之后我会仔细修改！

概率论知识

概率的定义

非负性: $0\le P(A)\le 1$ 。
归一性:对于整个样本空间空间 $\Omega，有P(\Omega)=1$ 。
可加性:对于一系列互不相容的事件 $A_1,A_2,A_3,\cdots$ $P(A_1\cup A_2\cup A_3\cdots)=P(A_1)+P(A_2)+P(A_3)+\cdots$

名词的定义

方差: $V[x]=E[(x-E[x])^2]$
标准差: $D[x]=\sqrt{V[x]}$
偏度: $\frac{E[(x-E[x])^3]}{D[x]^3}$
峰度: $\frac{E[(x-E[x])^4]}{D[x]^4}$
K阶中心距: $V_k=E[(x-E[x])^k]$
K阶原点距: $U_k=E[x^k]$
期望: $E [x]$
矩阵母函数:
$M_x(t)=E[e^{tx}]=\begin{cases}\sum_{x}e^{tx}f(x)\quad 离散型\\ \int_xe^{et}f(x)dx\quad 连续性\end{cases}$
$e^{tx}=1+(tx)+\frac{(tx)^2}{2!}+\frac{(tx)^3}{3!}+\cdots$
$M_x(t)=E[e^{tx}]=1+U_1t+\frac{U_2}{2!}t^2+\cdots+\frac{U_n}{n!}t^n+\cdots$
特征函数： $\phi_x(t)=E[e^{itx}]=M_{ix}(t)=M_x(it)$

$\quad$ 若期望、方差、偏度、峰度都已确定，那么概率分布会受到一定的约束。
$\int_{-\infty}^{\infty}e^{-x^2}dx=\sqrt{\pi}$
$\quad$ 正态分布的矩阵母函数 $M_x(t)=e^{E[x]\cdot t+\frac{V[x]\cdot t^2}{2}}$

概率分布的变换

随机变量 $x$ ，它的概率分布密度函数 $f (x)$ 定义在 $\chi$ 上, $x$ 可由 $\epsilon$ 变换得到，则 $r$ 的分布 $g(r)=f(\epsilon(r))|\frac{dx}{dr}|$ 。
将积分变量的变化从一维扩展到二维， $f (x, y)$ 在 $\chi\times Y$ 的积分可以用 $x=g(r,\theta),y=h(r,\theta)$ , $定义域\chi=g(R,\Theta),Y=h(R,\Theta)$ 。
$\int_x\int_y f(x,y)dxdy=\int_r\int_\theta f(g(r,\theta),h(r,\theta))|det(J)|drd\theta$
其中 $J=\begin{vmatrix}\frac{\partial x}{\partial r}&\frac{\partial x}{\partial \theta}\\ \frac{\partial y}{\partial r}&\frac{\partial y}{\partial \theta}\end{vmatrix}$

概率分布

连续概率分布

连续均匀分布

$\quad$ 表示在有限区间[a, b]上具有恒定的概率密度：
$f(x)=\begin{cases} \frac{1}{b-a} &a\le x\le b\\ 0 &其他 \end{cases}$

期望和方差：
$E[x]=\frac{a+b}{2}且V[x]=\frac{(b-a)^2}{12}$

正态分布

$\quad$ 正态分布时最重要的连续分布。对于 $-\infty\lt \mu\lt\infty,\sigma\gt0$ ，正太分布由 $N(\mu,\sigma^2)$ 表示，其密度函数为： $f(x)=\frac{1}{\sigma\sqrt{2\pi}}exp(-\frac{(x-\mu)^2}{2\sigma^2})$

期望和方差:
$E[x]=\mu且V[x]=\sigma^2$

矩阵母函数：
$M_x(t)=exp(\mu t+\frac{\sigma^2t^2}{2})$

伽马分布

$\quad$ 泊松分布表示单位时间内平均发生 $\lambda$ 次事件在单位时间内发生 $x$ 次。
$\quad$ 伽马分布表示事件发生 $a$ 次经过的时间 $x$ ，平均单位时间里发生 $\lambda$ 次。其概率密度函数为：
$Ga(a，\lambda)=f(x)=\frac{\lambda^a}{\Gamma(a)}x^{a-1}e^{-\lambda x},x\ge0$
$\quad$ 其中 $\Gamma(a)=\int_0^{\infty}x^{a-1}e^{-x}dx$

$\begin{aligned}\int_{-\infty}^{\infty}f(x)dx=&\frac{\lambda^a}{\Gamma(a)}\int_0^{\infty}x^{a-1}e^{-\lambda x}dx\\ =&\frac{\lambda^a}{\Gamma(a)}\int_0^{\infty}(\frac{y}{\lambda})^{a-1}e^{-y}\frac{1}{\lambda}dy\\ =&\frac{1}{\Gamma(a)}\int_0^{\infty}y^{a-1}e^{-y}dy=1\end{aligned}$

$\begin{aligned}\Gamma(a)&=\int_{0}^{\infty}e^{-x}x^{a-1}dx\\ &=[e^{-x}\frac{x^a}{a}]/_0^\infty-\int_0^\infty(-e^{-x})\frac{x^a}{a}dx\\ &=\frac{1}{a}\int_0^\infty e^{-x}x^{(a+1)-1}\\ &=\frac{\Gamma(a+1)}{a}\end{aligned}$

$\Gamma(a)=\int_0^\infty e^{-y^2}y^{2(a-1)}\frac{dx}{dy}dy=2\int_0^\infty y^{2a-1}e^{-y^2}dy$
$\quad$ 则： $\Gamma(\frac{1}{2})=\sqrt{\pi}$

$\begin{aligned}M_x(t)=E[e^{tx}]&=\frac{\lambda^a}{\Gamma(a)}\int_0^\infty x^{a-1}e^{-(\lambda-t)x}\\ &=\frac{\lambda^a}{\Gamma(a)}\int_0^\infty (\frac{y}{\lambda-t})^{a-1}e^{-y}\frac{1}{\lambda-t}dy\\ &=\frac{\lambda^a}{\Gamma(a)}\frac{\Gamma(a)}{(\lambda-t)^a}=(\frac{\lambda}{\lambda-t})^a\end{aligned}$

$Ga(a,\lambda)$ 的期望和方差分别为：
$E[x]=\frac{a}{\lambda}，V[x]=\frac{a}{\lambda^2}$

当 $a=\frac{n}{2},\lambda=\frac{1}{2}$ 时, $Ga(\frac{n}{2},\frac{1}{2})=\frac{\frac{1}{2}^{\frac{n}{2}}x^{\frac{n}{2}-1}e^{-\frac{1}{2}x}}{\Gamma(\frac{n}{2})}$ ，这时就变成了了卡方分布。
当 $a = 1$ ，伽马分布 $Ga(a,\lambda)$ 称为指数分布，并用 $Exp(\lambda)$ 表示。概率密度函数为 $f(x)=\lambda e^{-\lambda x}$

Beta分布

对于正实数标量 $\alpha$ 和 $\beta$ ， $B(\alpha,\beta)$ 表示的Beta分布的概率密度函数如下所示：
$f(x)=\frac{x^{\alpha-1}(1-x)^{\beta-1}}{B(\alpha, \beta)}，0\le x\le 1$
其中 $B(\alpha, \beta)=\int_{0}^{1}x^{a-1}(1-x)^{\beta-1}dx且B(\alpha,\beta)=\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}$

期望和方差
$E[x]=\frac{\alpha}{\alpha+\beta}且V[x]=\frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)}$

t分布

$\quad$ 令 $z$ 是服从标准正太分布 $N (0, 1)$ 的独立随机变量， $y$ 是服从自由度为d的卡方分布 $\chi^2(d)$ 的随机变量，它们的比例：
$x=\frac{x}{\sqrt{y/d}}$
其概率密度函数为：
$f(x)=\frac{1}{B(\frac{d}{2},\frac{1}{2})\sqrt{d}}(1+\frac{x^2}{d})^{-\frac{d+1}{2}}$

期望和方差，条件： $d\ge2$ 时，期望存在， $d\ge3$ 时方差存在。
$E[x]=0且V[x]=\frac{d}{d-2}$

F分布

$\quad$ 令 $y$ 和 $y^{'}$ 分别为具有 $d$ 和 $d^{'}$ 自由度的服从卡方分布的随机变量，它们的比例：
$x=\frac{y/d}{y'/d'}$
其概率密度函数为：
$f(x)=\frac{1}{B(d/2,d'/2)}(\frac{d}{d'})^{\frac{d}{2}}x^{\frac{d}{2}-1}(1+\frac{d}{d'}x)^{-\frac{d+d'}{2}}$

期望和方差。条件： $d'\ge3$ 时，期望存在， $d'\ge5$ 时，方差存在。
$E[x]=\frac{d'}{d'-2}且V[x]=\frac{2d'^2(d+d'-2)}{d(d'-2)^2(d'-4)}$

离散概率分布

离散均匀分布

$\quad$ 离散均匀分布表示对于N个事件 $\{1, \dots, N\}$ ，他们发生的概率都相同的概率分布。它记作 $U\{1, \dots, N\}$ ，其概率分布为
$f(x)=\frac{1}{N},x=1, \dots, N$

期望和方差：
$E[x]=\frac{N+1}{2}且V[x]=\frac{N^2-1}{12}$

$\quad$ 对于有穷数 $a\lt b$ ，离散均匀分布 $a+1,\dots, b}$ 的概率分布函数可以表示为：
$f(x)=\frac{1}{b-a+1}, x=a, a+1, \dots, b$

期望和方差：
$E[x]=\frac{a+b}{2}且V[x]=\frac{(b-a+1)^2-1}{12}$

二项分布

$\quad$ 伯努利实验：一种具有两种可能结果的独立重复实验，实验结果为成功或失败。
$\quad$ 二项式分布：指n次伯努利实验中实验成功地次数 $x$ 的概率分布，用 $B i (n, p)$ 表示。
$\quad$ 概率密度函数为：
$f(x)=p^rq^{n-r}\dbinom{n}{x},x=0, 1, \dots, n|p+q=1$

$B i (n, p)$ 的矩阵母函数为:
$M_x(t)=\sum_{x=0}^{n}e^{tx}\binom{n}{x}p^xq^{n-x}=\sum_{x=0}^{n}(pe^t)^xq^{n-x}=(pe^t+q)^n$
期望和方差：
$E [x] = n p 且 V [x] = n p q$

负二项分布

$\quad$ 考虑实验成为概率为 $p$ 的伯努利实验。直到第k次实验成功时，试验失败的次数x服从负二项分布，记作 $N B (k, p)$ 。其概率密度函数为：
$f(x)=\binom{k+x-1}{x}p^k(1-p)^x\tag{1}$
$\quad$ 二项系数 $\binom{r}{x}$ 和二项式定理可推广到 $r=-k\lt0$ （此处可借鉴连续函数的泰勒展开理解）：
$\dbinom{-k}{x}\frac{(-k)(-k-1)\cdots (-k-x+1)}{x(x-1)\cdots 1}$
和
$(1+t)^{-k}=\sum_{x=0}^{\infty}\binom{-k}{x}t^x$
$\quad$ $(1)$ 中概率密度函数也可写为：
$\begin{aligned} f(x) &=\frac{(k+x-1)(k+x-2)\cdots k}{x(x-1)\cdots 1}p^k(1-p)^x\\ &=(-1)^x\binom{-k}{x}p^k(1-p)^x \end{aligned}\tag{2}$
$\quad$ $(1)$ 与 $(2)$ 都可表示负二项分布的密度函数。

负二项式母函数为：
$\begin{aligned} M_x(t)& =E[e^{tx}]=\sum_{x=0}^{\infty}e^{tx}\binom{-k}{x}p^k(p-1)^x\\ &=p^k\sum_{x=0}^{\infty}\binom{-k}{x}((p-1)e^t)^x=(\frac{p}{1-(1-p)e^x})^k \end{aligned}$

期望与方差：
$E[x]=\frac{k(1-p)}{p}且v[x]=\frac{k(1-p)}{p^2}$

几何分布

$\quad$ 考虑试验成功概率为 $p$ 的伯努利试验。直到第一次成功时，试验失败的次数 $x$ 服从几何分布。它等效于 $k = 1$ 的负二项分布。表示为 $G e (p)$ ，其概率密度函数为：
$f(x)=p(1-p)^x$

由于 $G e (p) = N B (1, P)$ ，因此其矩量母函数：
$M_x(t)=\frac{p}{1-(1-p)e^t}$
期望和方差为：
$E[x]=\frac{1-p}{p}且V[x]=\frac{1-p}{p^2}$

泊松分布

$\quad$ 有意思的例子：已知二项分布 $B i (n, p) ， n = 10000000, p = 0.00000003$ ，它平均有三次实验成功，因为 $E [x] = n p = 3$ ，而计算 $x = 5$ 对应的概率应为：
$P(5)=\binom{10000000}{5}(0.00000003)^5(0.9999997)^{9999995}$
你告诉我咋算！（手动滑稽！！！^ - ^）

泊松小数定理

对于 $p=\lambda/n$ ，有如下公式成立：
$\lim_{n\rightarrow\infty}\binom{n}{x}p^x(1-p)^{n-x}=\frac{e^{-\lambda}\lambda^x}{x!}$
证明：
$\begin{aligned} \lim_{n\rightarrow \infty}\binom{n}{x}\frac{\lambda}{n}^x(1-\frac{\lambda}{n})^{n-x}&=\lim_{n\rightarrow\infty}\frac{n!}{x!(n-x)!}(\frac{\lambda}{n})^x(1-\frac{\lambda}{n})^{n-x}\\ &=\frac{\lambda^x}{x!}\lim_{n\rightarrow\infty}\frac{n!}{(n-x)!n^x}(1-\frac{\lambda}{n})^n(1-\frac{\lambda}{n})^{-x}\\ since:&\lim_{n\rightarrow\infty}\frac{n!}{(n-x)!n^x}=1\\ &\lim_{n\rightarrow\infty}(1-\frac{\lambda}{n})^n=e^{-\lambda}\\ &\lim_{n\rightarrow\infty}(1-\frac{\lambda}{n})^{-x}=1\\ so:&=\frac{e^{-\lambda}\lambda^x}{x!} \end{aligned}$

$\quad$ 泊松分布的概率密度函数记为 $Po(\lambda)$ ，概率分布函数为：
$f(x)=\frac{e^{-\lambda}\lambda^x}{x!}$

矩量母函数：
$M_x(t)=E[e^{tx}]=\sum_{x=0}^{\infty}\frac{e^{tx}e^{-\lambda}\lambda^x}{x!}=exp(\lambda(e^t-1))$

期望与方差
$E[x]=\lambda且V[x]=\lambda$

超几何分布

$\quad$ 一个包里有 $N$ 个球，其中 $M$ 个球标记为"A"， $N - M$ 个球。标记为“B”。在该中情况下，有两种取球方案。

有放回取样

$\quad$ 在下一次取样前，把取出球的放回包中。此情况下，一个球总是从全部的N个球中抽取，取样的过程相当于伯努利实验，因此抽取n个球，含有x个A球的概率分布可表示为 $B i (n, M / N)$ 。

无放回取样

$\quad$ 在下一次取样前，无需将上一次取出的球放回包中。此情况下，包中的球的数量随着实验的进行而不断减少。因此，A与B的球数量之比取决于历次抽样情况。抽取n个球，含有x个A球的概率分布分布称为超几何分布，记为 $H G (N, M, n)$ 。其概率密度函数为：
$f(x)=\frac{\binom{M}{x}\binom{N-M}{n-x}}{\binom{N}{n}},x=0,1,\cdots,n$

期望和方差：
$E[x]=\frac{nM}{N}且V[x]=\frac{nM(N-M)(N-n)}{N^2(N-1)}$
其中:
$\begin{aligned} E[x]&=\frac{1}{\binom{N}{n}}\sum_{x=0}^{n}x\binom{M}{x}\binom{N-M}{n-x}\\ &=\frac{M}{\binom{N}{n}}\sum_{x=1}^{n}\binom{M-1}{x-1}\binom{N-M}{n-x}\\ &=\frac{M}{\binom{N}{n}}\sum_{x=0}^{n-1}\binom{M-1}{x}\binom{N-M}{n-x-1}\\ &=\frac{nM}{N}\frac{1}{\binom{N-1}{n-1}}\sum_{x=0}^{n-1}\binom{M-1}{x}\binom{N-M}{n-x-1}\quad [有\binom{N}{n}=\sum_{x=0}^{n}\binom{M}{x}\binom{N-M}{n-x}]\\ &=\frac{nM}{N} \end{aligned}$
$V[x]=E[x(x-1)]+E[x]-(E[x])^2$

矩量母函数：
$M_x(t)=E[e^{tx}]=\frac{\binom{N-M}{n}}{\binom{N}{n}}F(-n,-M,N-M-n+1, e^t)$
其中
$F(a,b,c,d)=\sum_{x=0}^{\infty}\frac{(a)_x(b)_x}{(c)_x}\frac{d^x}{x!}\\ (a)_x= \begin{cases} a(a+1)\cdots (a+x-1) &x>0\\ 1 & x=0 \end{cases}$
因为其矩量母函数可以用超几何系数来表示，超几何分布由此而得名。

python绘图

连续概率分布

在这里插入图片描述

离散概率分布

在这里插入图片描述

Code

import scipy.stats as ss
import numpy as np
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['KaiTi']
plt.rcParams['axes.unicode_minus'] = False

"""
continue
"""
# 均匀分布和正太分布
plt.style.use("fivethirtyeight")   # 一定要卸载subplots的前面，否则是没用的！
fig, ax = plt.subplots(2, 2)
x = np.linspace(0, 3, 100)
y_uniform = ss.uniform.pdf(x, 0, 3)
y_norm_1 = ss.norm.pdf(x, 0.5, 0.5)
y_norm_2 = ss.norm.pdf(x, 1, 1.5)
y_norm_3 = ss.norm.pdf(x, 2, 2)
ax[0, 0].set_title("均匀分布和正态分布")
ax[0, 0].plot(x, y_uniform, label="U(0,3)")
ax[0, 0].plot(x, y_norm_1, label="N(0.5,0.5)")
ax[0, 0].plot(x, y_norm_2, label="N(1,3)")
ax[0, 0].plot(x, y_norm_3, label="N(2,2)")
ax[0, 0].legend()

# Gamma分布
x = np.linspace(0, 5, 1000)
y_gamma_1 = ss.gamma.pdf(x, 2, scale=1/2)  # scale=1/beta
y_gamma_2 = ss.gamma.pdf(x, 1, scale=1/1)
y_gamma_3 = ss.gamma.pdf(x, 2, scale=1/0.5)
y_gamma_4 = ss.gamma.pdf(x, 0.8, scale=1/0.5)
y_gamma_5 = ss.gamma.pdf(x, 1, scale=1/2)
y_gamma_6 = ss.gamma.pdf(x, 0.8, scale=1/1)
ax[0, 1].set_title("伽马分布")
ax[0, 1].plot(x, y_gamma_1, label="Ga(2,2)")
ax[0, 1].plot(x, y_gamma_2, label="Ga(1,1)")
ax[0, 1].plot(x, y_gamma_3, label="Ga(2,0.5)")
ax[0, 1].plot(x, y_gamma_4, label="Ga(0.8,0.5)")
ax[0, 1].plot(x, y_gamma_5, label="Ga(1,2)")
ax[0, 1].plot(x, y_gamma_6, label="Ga(0.8,1)")
ax[0, 1].legend()

# Beta分布
x = np.linspace(0, 1, 200)
y_beta_1 = ss.beta.pdf(x, 0.5, 0.5)
y_beta_2 = ss.beta.pdf(x, 0.5, 1)
y_beta_3 = ss.beta.pdf(x, 1, 0.5)
y_beta_4 = ss.beta.pdf(x, 1, 3)
y_beta_5 = ss.beta.pdf(x, 3, 0.5)
y_beta_6 = ss.beta.pdf(x, 3, 3)
ax[1, 0].set_title("贝塔分布")
ax[1, 0].plot(x, y_beta_1, label="B(0.5,0.5)")
ax[1, 0].plot(x, y_beta_2, label="B(0.5,1)")
ax[1, 0].plot(x, y_beta_3, label="B(1,0.5)")
ax[1, 0].plot(x, y_beta_4, label="B(1,3)")
ax[1, 0].plot(x, y_beta_5, label="B(3,0.5)")
ax[1, 0].plot(x, y_beta_6, label="B(3,3)")
ax[1, 0].legend()

# t分布和F分布
x_t = np.linspace(-2, 2, 400)
y_t_1 = ss.t.pdf(x_t, 1)
y_t_2 = ss.t.pdf(x_t, 3)
x_f = np.linspace(0, 4, 400)
y_f_1 = ss.f.pdf(x_f, 2, 1)
y_f_2 = ss.f.pdf(x_f, 10, 1)
ax[1, 1].set_title("t分布与F分布")
ax[1, 1].plot(x_t, y_t_1, label="t(1)")
ax[1, 1].plot(x_t, y_t_2, label="t(3)")
ax[1, 1].plot(x_f, y_f_1, label="F(2,1)")
ax[1, 1].plot(x_f, y_f_2, label="F(10,1)")
ax[1, 1].legend()

# ---------------------------------------------------
"""
discrete
"""

plt.style.use("Solarize_Light2")
_, ax = plt.subplots(3, 3)

# 均匀分布
x = np.arange(0, 5, 1)
y = [1 / len(x)] * len(x)
ax[0, 0].stem(x, y, linefmt='r--', basefmt='None')
ax[0, 0].set_xticks(x)
ax[0, 0].set_title("均匀分布", fontsize=10)
# ax[0, 0].spines['right'].set_visible(False)
# ax[0, 0].spines['top'].set_visible(False)

# 二项分布
x = np.arange(0, 11, 1)
y = ss.binom.pmf(x, 10, 0.5)
ax[0, 1].stem(x, y, linefmt='r--', basefmt='None')
ax[0, 1].set_title("Bi(10,0.5)", fontsize=10)

x = np.arange(0, 11, 1)
y = ss.binom.pmf(x, 10, 0.2)
ax[0, 2].stem(x, y, linefmt='r--', basefmt='None')
ax[0, 2].set_title("Bi(10,0.2)", fontsize=10)

# 负二项分布
x = np.arange(0, 30, 2)
y = ss.nbinom.pmf(x, 3, 0.2)
ax[1, 0].stem(x, y, linefmt='r--', basefmt='None')
ax[1, 0].set_title("NB(3,0.2)", fontsize=10)

x = np.arange(0, 30, 2)
y = ss.nbinom.pmf(x, 5, 0.6)
ax[1, 1].stem(x, y, linefmt='r--', basefmt='None')
ax[1, 1].set_title("NB(5,0.6)", fontsize=10)

# 几何分布:这个库中的几何分布中的x表示试验次数，不是失败次数，即x=x-1
x = np.arange(1, 30, 2)
y = ss.geom.pmf(x, 0.1)
ax[1, 2].stem(x, y, linefmt='r--', basefmt='None')
ax[1, 2].set_title("Ge(0.1)", fontsize=10)

# 泊松分布
x = np.arange(0, 15, 1)
y = ss.poisson.pmf(x, 3)
ax[2, 0].stem(x, y, linefmt='r--', basefmt='None')
ax[2, 0].set_title("Po(3)", fontsize=10)

# 超几何分布
x = np.arange(0, 15, 1)
y = ss.hypergeom.pmf(x, 20, 5, 10)
ax[2, 1].stem(x, y, linefmt='r--', basefmt='None')
ax[2, 1].set_title("HG(20,5,10)", fontsize=10)

y = ss.hypergeom.pmf(x, 20, 8, 15)
ax[2, 2].stem(x, y, linefmt='r--', basefmt='None')
ax[2, 2].set_title("HG(20,8,15)", fontsize=10)
plt.show()