统计基础概览-CSDN博客

本文链接：https://blog.csdn.net/traceorigin/article/details/28523203

统计基础

机器学习需要深厚的数学基础，矩阵、统计、优化，这些都是基本功。勿在浮沙筑高台！所以在本文中将总结学习统计基础知识，夯实基础！

正态分布在机器学习中有着重要的应用，在数学上有这样一个结论：根据中心极限定理，多个随机变量之和服从正态分布。根据这个结论，在误差分析时，
可以认为所产生的误差是多个独立同分布误差的叠加，因此最终的误差服从正态分布。

单变量正态分布
$N (x | μ, σ 2) = 1 ( 2 π σ 2 ) 1 2 e x p {- 1 2 (x - μ) 2}$
其中, E(x)=μ , var(x)=σ2 .
多变量正态分布
$N (X | μ, Σ) = 1 ( 2 π ) D 2 1 | Σ | 1 2 e x p {- 1 2 (X - μ) T Σ - 1 (X - μ)}$
其中， E(X)=μ ， var(X)=Σ ， Σ 是 n 阶对称正定矩阵。而 Σ 是对称矩阵，所以存在正交矩阵 T(T′=T−1) ，使得 T′ΣT=Λ ，其中 Λ 是对角阵，其对角线上的元素 λ1,λ2,...,λn 是 Σ 的特征根。因为 Σ 是正定的，故 λ1,λ2,...,λn 都是正的。
高斯条件分布
对于联合分布 N(X|μ,Σ) , Λ=Σ−1 ,其中 $X = (x a x b), μ = (μ a μ b)$ $Σ = (Σ a a Σ b a Σ a b Σ b b), Λ = (Λ a a Λ b a Λ a b Λ b b)$ 则条件分布的概率为 $p (X a | X b) = N (X | μ a | b, Λ - 1 a a)$
$μ a | b = μ a - Λ - 1 a a Λ a b (X b - X a)$
边际分布的概率为 $p (X a) = N (X a | μ a, Σ a a)$
若 X 服从 N(μ,Σ) ，则 Y=AX+b 服从 N(Aμ+b,AΣA′)
混合高斯分布
高斯分布是一个单峰模型，其对于多峰模型的描述显然是不够的，所以引入了混合高斯分布，即多个高斯分布的凸组合 $p (x) = Σ k = 1 K π k N (x | μ k, Σ k)$
其中， Σk=1Kπk=1 ， 0≤πk≤1

Γ 函数
是阶乘在实数和复数上的扩展 $Γ (t) = \int \infty 0 x t - 1 e - x d x$ 当 t 为正整数时 $Γ (t) = (t - 1)!$
Γ 函数性质
$Γ (t + 1) = t Γ (t)$ $Γ (1) = 1$ $Γ (1 2) = π \sqrt$
Γ 分布密度函数
$f (x) = λ α x α - 1 Γ ( α ) e - λ x$
称 x 服从参数为 α,λ 的 Γ 分布，记为 x Γ(α,λ)
Γ 分布性质
Gamma分布中的参数 α 称为形状参数（shape parameter）， λ 称为尺度参数（scale parameter）。在实验中，它模拟假设随机变量X为等到第 α 件事发生所需之等候时间， α,λ 是两个分布调整参量。
$E (x) = α λ$ $σ 2 (x) = α λ 2$

Beta函数
$B (p, q) = Γ ( p ) Γ ( q ) Γ ( p + q ) = \int 10 x p - 1 (1 - x) q - 1 d x$
Beta分布密度函数
$B e t a (μ | p, q) = Γ ( p + q ) Γ ( p ) Γ ( q ) μ p - 1 (1 - μ) q - 1 = 1 B ( p , q ) μ p - 1 (1 - μ) q - 1$
其均值和方差如下所示： $E (μ) = p p + q$ $v a r (μ) = p q ( p + q ) 2 ( p + q + 1 )$
Beta分布是区间 [0,1] 上的单峰分布，所以可以在某些情况下对数据进行很好的描述。比如，其可作为伯努利分布的贝叶斯参数估计时的先验分布。

定义
$D i r (μ | α) = Γ ( α 0 ) Γ ( α 1 ) . . . Γ ( α k ) \prod k = 1 K μ α k - 1 k$ 其中 α0=Σk=1Kαk
Beta分布与Dirichlet分布的关系
- Beta分布对应二项分布，Dirichlet对应多项分布
- Beta分布是Dirichlet分布的特例

定义
若 x 的概率密度可以表示为 $p (x | η) = h (x) g (η) e x p {η T u (x)}$ 则称此分布为指数族分布。其中， η 称为自然参数， u(x) 是 x 的函数， g(η) 可以看作是归一化概率密度的参数，即 $g (η) \int h (x) e x p {η T u (x)} = 1$
实例
二项分布、多项分布、指数分布、Gamma分布等