机器学习笔记1.矩估计、极大似然估计。

最新推荐文章于 2024-06-26 02:15:54 发布

置顶听闻远方有佳人

最新推荐文章于 2024-06-26 02:15:54 发布

阅读量1w

点赞数 7

分类专栏：机器学习笔记文章标签：统计学习方法

本文链接：https://blog.csdn.net/qq_44607404/article/details/102221990

版权

机器学习笔记专栏收录该内容

1 篇文章

订阅专栏

1.矩估计

1.1矩估计思想：
矩估计是基于一种简单的“替换”思想，即用样本矩估计总体矩
1.2矩估计理论：
矩估计的理论依据就是基于大数定律的，大数定律语言化表述为：当总体的k阶矩存在时，样本的k阶矩依概率收敛于总体的k阶矩，即当抽取的样本数量n充分大的时候，样本矩将约等于总体矩。
1.3矩
令k为正整数或0，a为任意实数，X为随机变量。则期望值 $E(x-a)^k$ ,叫做随机变量X对a的k阶矩。如果有a=0，则 $E(x)^k$ 叫做k阶原点矩，也叫k阶矩。
1.4矩的计算方法
样本k阶原点矩 $A_k=1/n\sum_{i=1}^{n}X_i^k$ ===>> 总体k阶原点矩 $\mu_k=E(X^k)$
样本k阶中心矩 $B_k=1/n\sum_{i=1}^{n}(X_i-\overline{X})^k$ ===>>总体k阶原点矩 $m_k=E([ X-E（X)]^k)$
即令样本k阶矩与总体k阶矩相等（ps：矩估计理论）
1.5例子
设X的概率分布为

X	-1	0	1
P	θ	1-θ	θ

其中θ是位置参数，利用总体X的如下样本值-1,0,0,1,1。求θ的矩估计量。

求解过程如下：
利用样本矩=总体矩求解：
$\frac{-1+0+0+1+1}{5}=-1*θ+0*(1-θ)+1*θ$
由于等式右侧为0，所以一阶矩失效。因此求二阶矩：
$\frac{-1^2+0^2+0^2+1^2+1^2}{5}=(-1)^2*θ+0^2*(1-θ)+1^2*θ$ 求解可得θ= $\frac{3}{10}$ 。
对于连续型函数，矩估计依然这样求解，这里不再多说了。
矩估计的优缺点：
优点：此法简单易行，不需要事先知道总体是什么分布。（仅需按照均值和方差计算即可）。
缺点：总体类型已知时，未充分利用提供的分布信息，有些情况下，矩估计的量不唯一（样本矩近似总体矩有一定的随意性）。

2.极大似然估计（maximum likelihood estimation ，MLE）

2.1似然函数
再说极大似然估计之前先说一下似然函数。在概率论中，似然函数是一种关于统计模型中的参数的函数，表示模型参数中的似然性。“似然性”与”概率”意思相近，都是指某种事件发生的可能性，但是在统计学中，“似然性”和“概率”又有明确的区分。概率用于在已知一些参数的情况下，预测接下来的观测所得到的结果，而似然性则是用于在已知某些观测所得到的结果时，对有关事物的性质的参数进行估计。在这种意义上，似然函数可以理解为条件概率的逆反。在已知某个参数B时，事件A会发生的概率写作
在这里插入图片描述
利用贝叶斯定理，

因此，我们可以反过来构造表示似然性的方法：已知有事件A发生，运用似然函数L(B|A)，我们估计参数B的可能性。形式上，似然函数也是一种条件概率函数，但我们关注的变量改变了：此处关注的是影响B的参数大小。
2.2极大似然估计的目的
利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值
2.3原理
极大似然估计是建立在极大似然原理的基础上的一个统计方法，是概率论在统计学中的应用。极大似然估计提供了一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”。通过若干次试验，观察其结果，利用试验结果得到某个参数值能够使样本出现的概率为最大，则称为极大似然估计。
2.4极大似然估计求解
记已知一个独立同分布的样本集为D{ $X_1,X_2,X_3,\cdots,X_n$ }，已知其概率密度函数（连续分布）或概率质量函数（离散分布）为 $f_d$ ，以及一个分布参数 $\theta$ ，我们可以写严概率为.P{ $X_1,X_2,X_3,\cdots,X_n$ }= $f_d$ { $X_1,X_2,X_3,\cdots,X_n$ $\rvert$ $\theta$ }.
所以似然函数（linkehood function）：联合概率密度函数 $f_d$ 称为相对于{ $X_1,X_2,X_3,\cdots,X_n$ }的θ的似然函数。
记为 L(θ)=P{ $X_1,X_2,X_3,\cdots,X_n$ }= $\prod_{i=1}^{n}P(x_i|θ)$
如果 $\hat{θ}$ 是参数空间中能使似然函数最大的θ值，则应该是“最可能”的参数值，那么就是θ的极大似然估计量
2.4.1求解L(θ)
求使得出现该组样本的概率最大的θ值在这里插入图片描述
实际中为了便于计算，定义了对数似然函数（与线性函数单调性一致，取极值的时候点一样，且偏导时又方便计算）

未知参数只有一个（θ为标量），对θ求偏导令其为0求解即可得到 $\hat{θ}$ 的值。即
在这里插入图片描述
一般都是利用对数似然计算（简化计算且不影响 $\hat{θ}$ 的值）。
2.5总结
似然函数直接求导一般不太好求,一般得到似然函数L(θ)之后,都是先求它的对数,即ln L(θ),因为ln函数不会改变L的单调性，且计算更为简单，然后对ln L(θ)求θ的导数,令这个导数等于0,得到驻点.在这一点,似然函数取到最大值,所以叫最大似然估计法.本质原理为似然估计是已知结果去求未知参数,对于已经发生的结果（一般是一系列的样本值）,既然他会发生,说明在未知参数θ的条件下,这个结果发生的可能性很大,所以最大似然估计求的就是使这个结果发生的可能性最大的那个θ.

求最大似然估计量的一般步骤：

    （1）写出似然函数；

    （2）对似然函数取对数；

    （3）求导数；

    （4）解似然方程。
    
    最大似然估计的特点：

    1.比其他估计方法更加简单；

    2.收敛性：无偏或者渐近无偏，当样本数目增加时，收敛性质会更好；

    3.如果假设的类条件概率模型正确，则通常能获得较好的结果。但如果假设模型出现偏差，将导致非常差的估计结果。