机器学习统计篇——指数族exponential family 和似然likelihood

最新推荐文章于 2024-08-08 19:26:43 发布

lscHacker

最新推荐文章于 2024-08-08 19:26:43 发布

阅读量4.6k

点赞数 4

分类专栏： Machine Learning - Stat 文章标签：统计学指数家族似然函数

本文链接：https://blog.csdn.net/miss_snow_m/article/details/56440539

版权

本文详细介绍了统计学中的指数族、似然函数和点估计方法，包括充分性原则、最大似然估计量和贝叶斯估计量。重点讲解了最大似然估计在正态分布中的应用，以及如何通过EM算法处理缺失数据问题。

摘要由CSDN通过智能技术生成

这一篇估计会是非常长时间积累的博客。

Random Sample

iid概念：如果 $X_1,...X_n$ 彼此之间相互独立的变量，并且每一个变量 $X_i$ 的边缘概率pdf或pmd都是一样的函数 $f(x)$ ，那么我们就把变量 $X_1,...X_n$ 称作是 $f(x)$ 的随机取样。也可以说， $X_1,...X_n$ 是independent and identically distrubuted randome variables（独立同分布），且pdf或pmf是 $f(x)$ 。

那么不难得到iid的联合概率分布是 $f(x_1, ..., x_n | \theta) = \prod_{i=1}^n f(x_i|\theta)$ 。

样本均值： $\bar X = \frac{1}{n} \sum X_i$

样本方差： $S^2 = \frac{1}{n-1} \sum (X_i - \bar X)^2$

定义 $x_1, ..., x_n$ 是任意数字，且 $\bar x = (x_1 + ... + x_n) / n$ ，则我们有
3.1 $min_a \sum (x_i - a)^2 = \sum(x_i - \bar x)^2$
3.2 $(n-1) S^2 = \sum(x_i - \bar x)^2 = \sum x_i^2 - n \bar x^2$

其中 $\bar x$ ， $s^2$ 是对应于 $\bar X$ ， $S^2$ 观测值。

Data Reduction

我们使用 $T(X)$ 这个统计量来定义data reduction或者数据总结。如果只使用观测到的统计值数据 $T(X)$ ，而不是所有的观测样例 $x$ ，那么只要两个观测样例符合 $T(x)=T(y)$ ，就认为这两个观测样例一样，尽管实际的样例数值会有不一样的地方。

data reduction对于某种统计来说，可以认为是对样本空间 $\chi$ 的分割。比如， $\mathcal{T} = \{ t:t=T(x) \text{ for some } x \in \chi \}$ 是 $T(x)$ 在空间 $\chi$ 的镜像。那么 $T(X)$ 就把样本空间分割成了集合 $A_t,t \in \mathcal{T}$ ，其中 $A_t = \{ x: T(x) = t \}$ 。统计量就总结样本为，与反应整个样本空间不同，他只反映 $T(x)=t$ 的部分，或者是指反映 $x \in A_t$ 的样本。

比如， $T(x) = x_1 + ... + x_n$ ，那么这个统计量就只反映实际样本数值的和。可能有其他的样本会有同样的样本数之和。下面就讨论一下这种data reduction方法的利弊。

我们主要讨论三个原则。希望使用的data reduction能够不会损失关于未知参数 $\theta$ 的重要信息，并且不用考虑无关信息。充分性原则（sufficiency principle）保证了不损失关于 $\theta$ 的信息，同时获取数据的一些总结（summaries）。似然原则（likelihood principle）根据观测到的样本，描述了参数的函数，包含了所有能从样本中获取的关于 $\theta$ 的信息。同变性原则（equivariance principle）指定了另外一种data reduction的方法，仍然能够保持模型的某些重要特征。

The Sufficiency Principle（充分性原则）

If $T(X)$ is a sufficient statistic for $\theta$ , the nany inference about $\theta$ should depend on the sample X only through the value $T(X)$ . That is, if $x$ and $y$ are two sample points such that $T(x) = T(y)$ , then the inference about $\theta$ should be the same whether $X=x$ or $X=y$ is observed.

对于某个参数 $\theta$ 的充分统计量（sufficient statistics），就获取关于 $\theta$ 的所有信息。而所有样本中的额外信息都不包含在内。这就是充分性原则。

充分统计量

统计量 $T(X)$ 是充分统计量，当样本 $X$ 的条件分布，给定 $T(X)$ 时，不依赖于 $\theta$ 。

概念理解：首先对于连续的分布，概率密度分布（pdf）在某一个点是0，也就是 $P_\theta(T(X)=t)=0$ ，所以条件概率也是0，与 $\theta$ 无关。考虑离散分布的情况。

对于离散值，首先 $t$ 是某一个 $T(X)$ 的可能数值，也就是 $P_\theta(T(X)=t) > 0$ 。根据定义，我们考虑 $P_\theta(X=x|T(X)=t)$ ，其实x是样本点。

如果样本点 $x$ ， $T(x) \ne t$ ，那么明显 $P_\theta(X=x|T(X)=t) = 0$ 。
因此更感兴趣的是 $P_\theta(X=x|T(X)=T(x))$ 。（根据定义，如果 $T(X)$ 是充分统计量，那么这个条件概率对于所有的 $\theta$ 都一样，所以可以忽略下标， $P(X=x|T(X)=t)$ 。）
下面就要证明 $P_\theta(X=x|T(X)=x)$ 与 $\theta$ 无关。同时根据定义，知道 $X=x$ 是 $T(X)=T(x)$ 的子集。我们可以得到：
$P θ (X = x | T (X) = T (x)) = X = x and T ( X ) = T ( x ) P θ ( T ( X ) = T ($