机器学习笔记1.矩估计、极大似然估计。

1.矩估计

1.1矩估计思想:
矩估计是基于一种简单的“替换”思想,即用样本矩估计总体矩
1.2矩估计理论:
矩估计的理论依据就是基于大数定律的,大数定律语言化表述为:当总体的k阶矩存在时,样本的k阶矩依概率收敛于总体的k阶矩,即当抽取的样本数量n充分大的时候,样本矩将约等于总体矩。
1.3矩
令k为正整数或0,a为任意实数,X为随机变量。则期望值 E ( x − a ) k E(x-a)^k E(xa)k,叫做随机变量X对a的k阶矩。如果有a=0,则 E ( x ) k E(x)^k E(x)k叫做k阶原点矩,也叫k阶矩。
1.4矩的计算方法
样本k阶原点矩 A k = 1 / n ∑ i = 1 n X i k A_k=1/n\sum_{i=1}^{n}X_i^k Ak=1/ni=1nXik ===>> 总体k阶原点矩 μ k = E ( X k ) \mu_k=E(X^k) μk=E(Xk)
样本k阶中心矩 B k = 1 / n ∑ i = 1 n ( X i − X ‾ ) k B_k=1/n\sum_{i=1}^{n}(X_i-\overline{X})^k Bk=1/ni=1n(XiX)k ===>>总体k阶原点矩 m k = E ( [ X − E ( X ) ] k ) m_k=E([ X-E(X)]^k) mk=E([XEX)]k)
即令样本k阶矩与总体k阶矩相等 (ps:矩估计理论)
1.5例子
设X的概率分布为

X-101
Pθ1-θθ
其中θ是位置参数,利用总体X的如下样本值-1,0,0,1,1。求θ的矩估计量。

求解过程如下:
利用样本矩=总体矩求解:
− 1 + 0 + 0 + 1 + 1 5 = − 1 ∗ θ + 0 ∗ ( 1 − θ ) + 1 ∗ θ \frac{-1+0+0+1+1}{5}=-1*θ+0*(1-θ)+1*θ 51+0+0+1+1=1θ+0(1θ)+1θ
由于等式右侧为0,所以一阶矩失效。因此求二阶矩:
− 1 2 + 0 2 + 0 2 + 1 2 + 1 2 5 = ( − 1 ) 2 ∗ θ + 0 2 ∗ ( 1 − θ ) + 1 2 ∗ θ \frac{-1^2+0^2+0^2+1^2+1^2}{5}=(-1)^2*θ+0^2*(1-θ)+1^2*θ 512+02+02+12+12=(1)2θ+02(1θ)+12θ求解可得θ= 3 10 \frac{3}{10} 103
对于连续型函数,矩估计依然这样求解,这里不再多说了。
矩估计的优缺点:
优点:此法简单易行,不需要事先知道总体是什么分布。(仅需按照均值和方差计算即可)。
缺点:总体类型已知时,未充分利用提供的分布信息,有些情况下,矩估计的量不唯一(样本矩近似总体矩有一定的随意性)。

2.极大似然估计(maximum likelihood estimation ,MLE)

2.1似然函数
再说极大似然估计之前先说一下似然函数。在概率论中,似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性。“似然性”与”概率”意思相近,都是指某种事件发生的可能性,但是在统计学中,“似然性”和“概率”又有明确的区分。概率用于在已知一些参数的情况下,预测接下来的观测所得到的结果,而似然性则是用于在已知某些观测所得到的结果时,对有关事物的性质的参数进行估计。在这种意义上,似然函数可以理解为条件概率的逆反。在已知某个参数B时,事件A会发生的概率写作
在这里插入图片描述
利用贝叶斯定理,
在这里插入图片描述
因此,我们可以反过来构造表示似然性的方法:已知有事件A发生,运用似然函数L(B|A),我们估计参数B的可能性。形式上,似然函数也是一种条件概率函数,但我们关注的变量改变了:此处关注的是影响B的参数大小。
2.2极大似然估计的目的
利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值
2.3原理
极大似然估计是建立在极大似然原理的基础上的一个统计方法,是概率论在统计学中的应用。极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计。
2.4极大似然估计求解
记已知一个独立同分布的样本集为D{ X 1 , X 2 , X 3 , ⋯   , X n X_1,X_2,X_3,\cdots,X_n X1,X2,X3,,Xn},已知其概率密度函数(连续分布)或概率质量函数(离散分布)为 f d f_d fd,以及一个分布参数 θ \theta θ ,我们可以写严概率为.P{ X 1 , X 2 , X 3 , ⋯   , X n X_1,X_2,X_3,\cdots,X_n X1,X2,X3,,Xn}= f d f_d fd{ X 1 , X 2 , X 3 , ⋯   , X n X_1,X_2,X_3,\cdots,X_n X1,X2,X3,,Xn ∣ \rvert θ \theta θ}.
所以似然函数(linkehood function):联合概率密度函数 f d f_d fd称为相对于{ X 1 , X 2 , X 3 , ⋯   , X n X_1,X_2,X_3,\cdots,X_n X1,X2,X3,,Xn}的θ的似然函数。
记为 L(θ)=P{ X 1 , X 2 , X 3 , ⋯   , X n X_1,X_2,X_3,\cdots,X_n X1,X2,X3,,Xn}= ∏ i = 1 n P ( x i ∣ θ ) \prod_{i=1}^{n}P(x_i|θ) i=1nP(xiθ)
如果 θ ^ \hat{θ} θ^是参数空间中能使似然函数最大的θ值,则应该是“最可能”的参数值,那么就是θ的极大似然估计量
2.4.1求解L(θ)
求使得出现该组样本的概率最大的θ值 在这里插入图片描述
实际中为了便于计算,定义了对数似然函数(与线性函数单调性一致,取极值的时候点一样,且偏导时又方便计算)
在这里插入图片描述
在这里插入图片描述
未知参数只有一个(θ为标量),对θ求偏导令其为0求解即可得到 θ ^ \hat{θ} θ^的值。即
在这里插 入图片描述
一般都是利用对数似然计算(简化计算且不影响 θ ^ \hat{θ} θ^的值)。
2.5总结
似然函数直接求导一般不太好求,一般得到似然函数L(θ)之后,都是先求它的对数,即ln L(θ),因为ln函数不会改变L的单调性,且计算更为简单,然后对ln L(θ)求θ的导数,令这个导数等于0,得到驻点.在这一点,似然函数取到最大值,所以叫最大似然估计法.本质原理为似然估计是已知结果去求未知参数,对于已经发生的结果(一般是一系列的样本值),既然他会发生,说明在未知参数θ的条件下,这个结果发生的可能性很大,所以最大似然估计求的就是使这个结果发生的可能性最大的那个θ.

求最大似然估计量的一般步骤:

    (1)写出似然函数;

    (2)对似然函数取对数;

    (3)求导数;

    (4)解似然方程。
    
    最大似然估计的特点:

    1.比其他估计方法更加简单;

    2.收敛性:无偏或者渐近无偏,当样本数目增加时,收敛性质会更好;

    3.如果假设的类条件概率模型正确,则通常能获得较好的结果。但如果假设模型出现偏差,将导致非常差的估计结果。
  • 6
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值