概率分布

最新推荐文章于 2023-12-21 14:07:38 发布

zhang-zhan

最新推荐文章于 2023-12-21 14:07:38 发布

阅读量442

点赞数 1

分类专栏：深度学习文章标签：基础知识

本文链接：https://blog.csdn.net/u014702177/article/details/53467593

版权

深度学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

概率分布

总结一些广泛使用的概率分布的性质。对于每个概率分布，列出一些关键的统计性质，例如期望 $E[x]$ 、方差（或者是协方差）、众数、熵 $H[x]$ 。所有这些分布都是指数族的成员，被广泛用作更高级的概率模型的基本模块。

伯努利分布
这是单一二元变量的 $x\in\{0,1\}$ 的分布。例如，抛硬币的结果。它是由一个连续参数 $\mu\in[0,1]$ 控制，这个参数表示 $x = 1$ 的概率。

$B e r n (x ∖ u) = μ x (1 - μ) 1 - x$ $\begin{equation} \begin{aligned} Bern(x \backslash u) = \mu^{x}(1 - \mu)^{1-x} \end{aligned} \end{equation}$
$E [x] = μ$ $\begin{equation} \begin{aligned} E[x] = \mu \end{aligned} \end{equation}$
$v a r [x] = μ (1 - μ)$ $\begin{equation} \begin{aligned} var[x] = \mu(1-\mu) \end{aligned} \end{equation}$
$m o d e [x] = {1, 0, 如果 μ \geq 0.5 否则$ $\begin{eqnarray}mode[x]= \begin{cases} 1, &如果 \mu \geq 0.5\cr 0, &否则 \end{cases} \end{eqnarray}$
$H [x] = - μ l n μ - (1 - μ) l n (1 - μ)$ $\begin{equation} \begin{aligned} H[x] = -\mu ln\mu - (1-\mu)ln(1-\mu) \end{aligned} \end{equation}$
伯努利分布是二项分布对单一观测的特殊情况。它对于 $\mu$ 的共轭先验分布是Beta分布。
Beta分布
这是连续变量 $\mu\in[0,1]$ 的分布，经常用于表示某些二元事件的概率。它有两个参数 $a$ 和 $b$ 。为了保证分布能够归一化，我们要求 $a > 0$ 并且 $b > 0$ 。

$B e t a (μ ∖ a, b) = Γ ( a + b ) Γ ( a ) Γ ( b ) μ a - 1 μ b - 1$ $\begin{equation} \begin{aligned} Beta(\mu \backslash a,b) = \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\mu^{a-1}\mu^{b-1} \end{aligned} \end{equation}$
$E [μ] = a a + b$ $\begin{equation} \begin{aligned} E[\mu] = \frac{a}{a+b} \end{aligned} \end{equation}$
$v a r [μ] = a b ( a + b ) 2 ( a + b + 1 )$ $\begin{equation} \begin{aligned} var[\mu] = \frac{ab}{(a+b)^{2}(a+b+1)} \end{aligned} \end{equation}$
$m o d e [μ] = a - 1 a + b - 2$ $\begin{equation} \begin{aligned} mode[\mu] = \frac{a-1}{a+b-2} \end{aligned} \end{equation}$
Beta分布是伯努利分布的共轭先验，其中a和b可以分别表示为 $x =1$ 和 $x = 0$ 的观测的有效先验数量。如果 $a\geq 1$ 且 $b\geq 1$ ，那么它的概率密度是有限值，否则在 $\mu = 0 和（或） \ mu = 1$ 处会有奇异值。对于 $a=b=1$ 的情形，它就简化成了均匀分布。Beta分布是 $K$ 状态狄利克雷分布在 $K=2$ 时的特殊情形。
二项分布
二项分布给出了来自伯努利分布的 $N个$ 样本中观察到 $m$ 次 $x = 1$ 的概率。伯努利分布中，观察到 $x = 1$ 的概率是 $\mu \in[0,1]$ 。
$B i n (m ∖ N, μ) = ⟮ N m ⟯ μ m (1 - μ) N - m$ $\begin{equation} \begin{aligned} Bin(m \backslash N,\mu) = \lgroup_{m}^{N}\rgroup\mu ^{m}(1-\mu)^{N-m} \end{aligned} \end{equation}$
$E [m] = N μ$ $\begin{equation} \begin{aligned} E[m] = N\mu \end{aligned} \end{equation}$
$v a r [x] = N μ (1 - μ)$ $\begin{equation} \begin{aligned} var[x] = N\mu(1-\mu) \end{aligned} \end{equation}$
$m o d e [m] = ⌊ (N + 1) μ ⌋$ $\begin{equation} \begin{aligned} mode[m] = \lfloor(N+1)\mu\rfloor \end{aligned} \end{equation}$
其中 $\lfloor(N+1)\mu\rfloor$ 表示不超过 $(N+1)\mu$ 的最大整数。此外
$⟮ N m ⟯ = N ! m ! ( N - m ) !$ $\begin{equation} \begin{aligned} \lgroup_{m}^{N}\rgroup = \frac{N!}{m!(N-m)!} \end{aligned} \end{equation}$
表示从 $N$ 个完全相同的物体中选择 $m$ 个物体的总方案数量。这里 $m!$ 表示乘积 $m \times (m-1) \times \dots \times 2 \times 1$ 。二项分布中 $N=1$ 这一特殊情形被称为伯努利分布，对于大的 $N$ 值，二项分布近似于高斯分布。 $\mu$ 的共轭先验分布是Beta分布。
狄利克雷分布
狄利克雷分布是K个随机变量 $0 \leq \mu_{k} \leq 1$ 的多变量分布，其中 $k = 1,\dots , K$ ,并且满足下面的限制
$0 \leq μ k \leq 1 ， \sum k = 1 K μ k = 1$ $\begin{equation} \begin{aligned} 0 \leq \mu_{k} \leq 1，\sum_{k=1}^{K}\mu_{k} = 1 \end{aligned} \end{equation}$
记 $\mu = (\mu_1,\dots,\mu_K)^T$ ， $\alpha = (\alpha_1,\dots,\mu_K)^T$ ，我们有
$D i r (μ ∖ α) = C (α) \prod k = 1 K μ α k - 1 k$ $\begin{equation} \begin{aligned} Dir(\mu \backslash \alpha) = C(\alpha)\prod_{k=1}^{K}\mu_{k}^{\alpha_{k} - 1} \end{aligned} \end{equation}$
$E [μ k] = α k α ^$ $\begin{equation} \begin{aligned} E[\mu_k] = \frac{\alpha_k}{\hat{\alpha}} \end{aligned} \end{equation}$
$v a r [μ k] = α k ( α ^ - α k ) α ^ 2 ( α ^ + 1 )$ $\begin{equation} \begin{aligned} var[\mu_k] = \frac{\alpha_k(\hat{\alpha} - \alpha_k)}{\hat{\alpha}^{2}(\hat{\alpha} + 1)} \end{aligned} \end{equation}$
$c o v [μ j μ k] = - α j α k α ^ 2 ( α ^ + 1 )$ $\begin{equation} \begin{aligned} cov[\mu_j\mu_k]= -\frac{\alpha_{j}\alpha_{k}}{\hat{\alpha}^2(\hat{\alpha}+1)} \end{aligned} \end{equation}$
$m o d e [μ k] = α k - 1 α ^ - K$ $\begin{equation} \begin{aligned} mode[\mu_k]= \frac{\alpha_k - 1}{\hat{\alpha} - K} \end{aligned} \end{equation}$
$E [l n μ k] = ψ (α k) - ψ (α^)$ $\begin{equation} \begin{aligned} E[ln\mu_k]= \psi(\alpha_k) - \psi(\hat{\alpha}) \end{aligned} \end{equation}$
$H[μ]=−∑k=1K(αk−1){ψ(αk)−ψ(α^)}−lnC(α)$ $\begin{equation} \begin{aligned} H[\mu]= -\sum_{k=1}^{K}(\alpha_k - 1)\{\psi(\alpha_k) -\psi(\hat{\alpha})\} - lnC(\alpha) \end{aligned} \end{equation}$
其中
$C (α) = Γ ( α ^ ) Γ ( α 1 ) \dots Γ ( α K )$ $\begin{equation} \begin{aligned} C(\alpha) = \frac{\Gamma(\hat{\alpha})}{\Gamma(\alpha_1)\dots\Gamma(\alpha_K)} \end{aligned} \end{equation}$
并且
$α^= \sum k = 1 K α k$ $\begin{equation} \begin{aligned} \hat{\alpha} = \sum_{k=1}^{K}\alpha_k \end{aligned} \end{equation}$
这里
$ψ (a) = d d a l n Γ (a)$ $\begin{equation} \begin{aligned} \psi(a) = \frac{d}{da}ln\Gamma(a) \end{aligned} \end{equation}$
被称为digamma函数（Abramowitz and Stegun，1965）。为了保证概率归一化，参数 $\alpha_k$ 满足限制 $\alpha_k > 0$ 。
狄利克雷分布是多项式分布的共轭先验，是Beta分布的推广。这种情况下，参数 $\alpha_k$ 是 $K$ 维二元观测向量 $x$ 对应值的有效观测数据。和Beta分布相同，如果对于所有的 $k$ 都有 $\alpha_k \geq 1$ 。那么狄利克雷分布在空间中所有位置的密度均为有限值。

zhang-zhan

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
概率分布

概率分布总结一些广泛使用的概率分布的性质。对于每个概率分布，列出一些关键的统计性质，例如期望E[x]E[x]、方差（或者是协方差）、众数、熵H[x]H[x]。所有这些分布都是指数族的成员，被广泛用作更高级的概率模型的基本模块。伯努利分布这是单一二元变量的x∈{0,1}x\in\{0,1\}的分布。例如，抛硬币的结果。它是由一个连续参数μ∈[0,1]\mu\in[0,1]控制，这个参数表示x=1
复制链接

扫一扫

专栏目录