机器学习统计篇——指数族exponential family 和 似然likelihood

本文详细介绍了统计学中的指数族、似然函数和点估计方法,包括充分性原则、最大似然估计量和贝叶斯估计量。重点讲解了最大似然估计在正态分布中的应用,以及如何通过EM算法处理缺失数据问题。
摘要由CSDN通过智能技术生成

这一篇估计会是非常长时间积累的博客。

Random Sample

iid概念:如果 X1,...Xn 彼此之间相互独立的变量,并且每一个变量 Xi 的边缘概率pdf或pmd都是一样的函数 f(x) ,那么我们就把变量 X1,...Xn 称作是 f(x) 的随机取样。也可以说, X1,...Xn 是independent and identically distrubuted randome variables(独立同分布),且pdf或pmf是 f(x)

那么不难得到iid的联合概率分布是 f(x1,...,xn|θ)=ni=1f(xi|θ)

  1. 样本均值: X¯=1nXi
  2. 样本方差: S2=1n1(XiX¯)2
  3. 定义 x1,...,xn 是任意数字,且 x¯=(x1+...+xn)/n ,则我们有
    3.1 mina(xia)2=(xix¯)2
    3.2 (n1)S2=(xix¯)2=x2inx¯2

其中 x¯ s2 是对应于 X¯ S2 观测值。

Data Reduction

我们使用 T(X) 这个统计量来定义data reduction或者数据总结。如果只使用观测到的统计值数据 T(X) ,而不是所有的观测样例 x ,那么只要两个观测样例符合 T(x)=T(y) ,就认为这两个观测样例一样,尽管实际的样例数值会有不一样的地方。

data reduction对于某种统计来说,可以认为是对样本空间 χ 的分割。比如, T={ t:t=T(x) for some xχ} T(x) 在空间 χ 的镜像。那么 T(X) 就把样本空间分割成了集合 At,tT ,其中 At={ x:T(x)=t} 。统计量就总结样本为,与反应整个样本空间不同,他只反映 T(x)=t 的部分,或者是指反映 xAt 的样本。

比如, T(x)=x1+...+xn ,那么这个统计量就只反映实际样本数值的和。可能有其他的样本会有同样的样本数之和。下面就讨论一下这种data reduction方法的利弊。

我们主要讨论三个原则。希望使用的data reduction能够不会损失关于未知参数 θ 的重要信息,并且不用考虑无关信息。充分性原则(sufficiency principle)保证了不损失关于 θ 的信息,同时获取数据的一些总结(summaries)。似然原则(likelihood principle)根据观测到的样本,描述了参数的函数,包含了所有能从样本中获取的关于 θ 的信息。同变性原则(equivariance principle)指定了另外一种data reduction的方法,仍然能够保持模型的某些重要特征。

The Sufficiency Principle(充分性原则)

If T(X) is a sufficient statistic for θ , the nany inference about θ should depend on the sample X only through the value T(X) . That is, if x and y are two sample points such that T(x)=T(y) , then the inference about θ should be the same whether X=x or X=y is observed.

对于某个参数 θ 的充分统计量(sufficient statistics),就获取关于 θ 的所有信息。而所有样本中的额外信息都不包含在内。这就是充分性原则。

充分统计量

统计量 T(X) 是充分统计量,当样本 X 的条件分布,给定 T(X) 时,不依赖于 θ

概念理解:首先对于连续的分布,概率密度分布(pdf)在某一个点是0,也就是 Pθ(T(X)=t)=0 ,所以条件概率也是0,与 θ 无关。考虑离散分布的情况。

对于离散值,首先 t 是某一个 T(X) 的可能数值,也就是 Pθ(T(X)=t)>0 。根据定义,我们考虑 Pθ(X=x|T(X)=t) ,其实x是样本点。

  • 如果样本点 x T(x)t ,那么明显 Pθ(X=x|T(X)=t)=0
  • 因此更感兴趣的是 Pθ(X=x|T(X)=T(x)) 。(根据定义,如果 T(X) 是充分统计量,那么这个条件概率对于所有的 θ 都一样,所以可以忽略下标, P(X=x|T(X)=t) 。)
    下面就要证明 Pθ(X=x|T(X)=x) θ 无关。同时根据定义,知道 X=x T(X)=T(x) 的子集。我们可以得到:
    Pθ(X=x|T(X)=T(x))=X=x and T(X)=T(x)Pθ(T(X)=T(
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值