极大似然估计_一文读懂矩估计，极大似然估计和贝叶斯估计

最新推荐文章于 2024-06-26 02:15:54 发布

weixin_39710295

最新推荐文章于 2024-06-26 02:15:54 发布

阅读量367

点赞数

文章标签：极大似然估计

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39710295/article/details/111347375

版权

概率论和数理统计是机器学习重要的数学基础。

概率论的核心是已知分布求概率，数理统计则是已知样本估整体。

概率论和数理统计是互逆的过程。概率论可以看成是由因推果，数理统计则是由果溯因。

数理统计最常见的问题包括参数估计，假设检验和回归分析。

所谓参数估计，就是已知随机变量服从某个分布规律，但是概率分布函数的有些参数未知，那么可以通过随机变量的采样样本来估计相应参数。

参数估计最主要的方法包括矩估计法，极大似然估计法，以及贝叶斯估计法。

机器学习中常常使用的是极大似然估计法和贝叶斯估计法。

一，矩估计法

矩估计的基本思想是用样本的k阶矩作为总体的k阶矩的估计量，从而解出未知参数。

例如

服从正态分布，但

和

参数未知。

对

采样N次，得到

试估计参数

和

解：用样本的一阶距估计总体的一阶距，用样本的二阶中心距估计总体的二阶中心距。

可以得到：

对

的估计是有偏的，

无偏估计是

二，极大似然估计法

极大似然估计法简称MLE(Maximum Likelihood Estimation).

极大似然估计法先代入参数值计算观测样本发生的概率，得到似然函数，然后对似然函数求极大值，得到对应的参数，即为极大似然估计参数。

对于离散随机变量X，N次采样得到样本结果为

，则极大似然估计法的公式为：

对于连续随机变量X，如果其概率密度函数为

，其中

为待求参数向量。

那么N次采样得到样本结果为

的概率正比于如下似然函数

为了便于计算方便，可以构造对数似然函数为

对数似然函数取极大值时，有

求解该方程可以得到

的极大似然估计

。

例如

服从正态分布，但

和

参数未知。

对

采样n次，得到

试估计参数

和

解：

正态分布的概率密度函数为

对应的对数似然函数为

对数似然函数取极大值时，有

解得

三，贝叶斯估计法

贝叶斯估计也叫做最大后验概率估计法,简称MAP(Maximum A Posterior)。

可以认为极大似然估计是贝叶斯估计不考虑先验概率的特例。

在概率论中有两大学派，频率学派和贝叶斯学派。

频率学派认为随机变量服从特定的统计分布规律，分布函数的参数是确定的数，可以通过抽样来估计。

和频率学派不同，贝叶斯学派认为一切皆为随机变量，随机变量的分布函数的参数也是随机变量，对其进行抽样估计时还必须考虑参数的先验分布。

在贝叶斯学派中，似然函数被理解为

在

已知时的条件概率:

而

本身也为随机变量，具有先验概率分布函数

贝叶斯估计的想法是最大化

的后验概率,应用贝叶斯公式得到

当不考虑先验概率

时，最大化后验概率回到极大似然估计。

由于在实践中，先验概率

往往并不可知，所以极大似然估计法用的更多一些。

在机器学习中，有一种和引入先验概率等效的做法，那就是在目标函数(相当于对数似然函数)后面加入正则化项。

如果加入的是L1正则化，相当于假设了参数的先验分布符合双指数分布，而如果引入了L2正则化，相当于假设了参数的先验分布符合正态分布。

在机器学习中，经验风险最小化和极大似然估计对应，结构风险最小化和贝叶斯估计对应。

weixin_39710295

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。