【最大似然估计】详解概率论之最大似然估计

程序遇上智能星空

已于 2022-06-21 08:59:21 修改

阅读量1.6w

点赞数 22

分类专栏：深入浅出讲解自然语言处理机器学习文章标签：概率论机器学习算法

于 2022-06-21 08:50:33 首次发布

本文链接：https://blog.csdn.net/kevinjin2011/article/details/125376831

版权

深入浅出讲解自然语言处理同时被 2 个专栏收录

27 篇文章 664 订阅

订阅专栏

机器学习

12 篇文章 19 订阅

订阅专栏

本文收录于《深入浅出讲解自然语言处理》专栏，此专栏聚焦于自然语言处理领域的各大经典算法，将持续更新，欢迎大家订阅！
个人主页：有梦想的程序星空
个人介绍：小编是人工智能领域硕士，全栈工程师，深耕Flask后端开发、数据挖掘、NLP、Android开发、自动化等领域，有较丰富的软件系统、人工智能算法服务的研究和开发经验。
如果文章对你有帮助，欢迎关注、点赞、收藏、订阅。

1、概率密度函数

概率密度函数（Probability Density Functions，简称PDF），概率密度函数是概率论里面最重要的概念之一。

定义：设为一随机变量，若存在非负实函数 $f(x) \ge 0$ ，使对任意实数 a < b ，有：

$P\{ a \le x < b\} = \int_a^b {f(x)dx}$

则称为连续随机变量， f(x) 称为的概率密度函数，简称概率密度或密度函数。

概率密度函数具有如下性质：

（1）非负性： $f(x) \ge 0$

（2）规范性： $\int_{ - \infty }^{ + \infty } {f(x)dx} = 1$

条件概率密度函数：对于任意给定的，在给定区间 (a,b) 内，条件概率密度函数 p(x|y) 都有如下公式成立：

$\int_a^b {f(x|y)dx} = 1$

2、分布函数

连续型随机变量的分布函数：设为连续型随机变量，其密度函数为 f(x) ，则有：

$F(x) = P\{ X \le x\} = \int_{ - \infty }^x {f(x)dx}$

对上式两端关于求导：

$F'(x) = [\int_{ - \infty }^x {f(x)dx} ]' = f(x)$

任何随机变量都有相应的分布函数。

f(x) 的几何意义如下：

密度函数与分布函数的关系：

（1）积分关系： $F(x) = \int_{ - \infty }^x {f(x)dx}$

（2）导数关系：若 f(x) 在处连续， F'(x) = f(x) 。

3、似然函数

似然函数是一种关于统计模型中的参数的函数，表示模型参数的似然性。似然函数是给定联合样本值关于（未知）参数 $\theta$ 的函数：

$L(\theta |x) = f(x|\theta )$

$f(x|\theta )$ 是一个密度函数，表示 $\theta$ 下关于联合样本值的联合密度函数。

假如连续型随机变量的概率密度函数为 $f(x|\theta )$ ，样本集上有个样本，则上的似然函数为：

$L(\theta |D) = \prod\limits_i^m {f({x_i}|\theta )}$

4、最大似然估计的原理

最大似然估计(Maximum Likelihood Estimation，简称MLE)。它是机器学习中常用的一种参数估计方法。它提供了一种给定观测数据来评估模型参数的方法。也就是模型已知，参数未定。利用已知样本结果（统计概率）反推最有可能导致这样结果的参数值。

最大似然估计中采样需满足一个很重要的假设，就是所有的采样都是独立同分布的。

首先假设 ${x_1},{x_2}, \cdots ,{x_n}$ 为独立同分布的采样， $\theta$ 为模型参数，为我们所使用的模型，遵循上述的独立同分布假设。参数为 $\theta$ 的模型产生上述采样可表示为：

$f({x_1},{x_2}, \cdots ,{x_n}|\theta ) = f({x_1}|\theta ) \times f({x_2}|\theta ) \times \cdots \times f({x_n}|\theta )$

回到上面的“模型已定，参数未知”的说法，此时，已知的为 ${x_1},{x_2}, \cdots ,{x_n}$ ，未知的为 $\theta$ ，故似然函数定义为:

$L(\theta |{x_1}, \cdots ,{x_n}) = f({x_1}, \cdots ,{x_n}|\theta ) = \prod\limits_{i = 1}^n {f({x_i}|\theta )}$

在实际应用中常用的是两边取对数，得到公式如下：

$\begin{array}{l} \ln L(\theta |{x_1}, \cdots ,{x_n}) = \sum\limits_{i = 1}^n {\ln f({x_i}|\theta )} \\ \hat \ell = \frac{1}{n}\ln L \end{array}$

其中 $\ln L(\theta |{x_1}, \cdots ,{x_n})$ 称为对数似然，而 $\hat \ell$ 称为平均对数似然。而平时所称的最大似然为最大的对数平均似然，即：

${\hat \theta _{mle}} = \mathop {\arg \max }\limits_{\theta \in \Theta } \hat \ell (\theta |{x_1}, \cdots ,{x_n})$

5、最大似然估计的求解步骤：

（1）写出似然函数：

$L(\theta ) = L(\theta |{x_1}, \cdots ,{x_n}) = \prod\limits_{i = 1}^n {p({x_i}|\theta )}$ （离散型随机变量）

$L(\theta ) = L(\theta |{x_1}, \cdots ,{x_n}) = \prod\limits_{i = 1}^n {f({x_i}|\theta )}$ （连续型随机变量）

（2）取对数 $\ln L$ 。

（3）对 ${x_1},{x_2}, \cdots ,{x_n}$ 求偏导数 $\frac{{\partial \ln L}}{{\partial {\theta _i}}},i = 1,2, \cdots ,m$ 。

（4）判断方程组 $\frac{{\partial \ln L}}{{\partial {\theta _i}}}$ 是否有解，若有解，则其解即为所求的最大似然估计，若无解，则最大似然估计常在 ${\theta _i}$ 的边界上到达。

关注微信公众号【有梦想的程序星空】，了解软件系统和人工智能算法领域的前沿知识，让我们一起学习、一起进步吧！

程序遇上智能星空

关注

22
点赞
踩
129

收藏

觉得还不错? 一键收藏
打赏
0
评论
【最大似然估计】详解概率论之最大似然估计

最大似然估计(Maximum Likelihood Estimation，简称MLE)。它是机器学习中常用的一种参数估计方法。它提供了一种给定观测数据来评估模型参数的方法。也就是模型已知，参数未定。利用已知样本结果（统计概率）反推最有可能导致这样结果的参数值。.........
复制链接

扫一扫