【最大似然估计】详解概率论之最大似然估计

  • 本文收录于《深入浅出讲解自然语言处理》专栏,此专栏聚焦于自然语言处理领域的各大经典算法,将持续更新,欢迎大家订阅!
  • ​​个人主页:有梦想的程序星空
  • ​​个人介绍:小编是人工智能领域硕士,全栈工程师,深耕Flask后端开发、数据挖掘、NLP、Android开发、自动化等领域,有较丰富的软件系统、人工智能算法服务的研究和开发经验。
  • ​​如果文章对你有帮助,欢迎​​关注​​点赞​​收藏​​订阅。

1、概率密度函数

概率密度函数(Probability Density Functions,简称PDF),概率密度函数是概率论里面最重要的概念之一。

定义:设X​为一随机变量,若存在非负实函数f(x) \ge 0​,使对任意实数a < b​,有:

P\{ a \le x < b\} = \int_a^b {f(x)dx}

​则称X​为连续随机变量,f(x)​称为X​的概率密度函数,简称概率密度或密度函数。

概率密度函数具有如下性质

(1)非负性:f(x) \ge 0

(2)规范性:\int_{ - \infty }^{ + \infty } {f(x)dx} = 1

条件概率密度函数:对于任意给定的y​,在给定区间(a,b)​内,条件概率密度函数p(x|y)​都有如下公式成立:

\int_a^b {f(x|y)dx} = 1

​2、分布函数

连续型随机变量的分布函数:设X​为连续型随机变量,其密度函数为f(x)​,则有:

F(x) = P\{ X \le x\} = \int_{ - \infty }^x {f(x)dx}

​对上式两端关于x​求导:

F'(x) = [\int_{ - \infty }^x {f(x)dx} ]' = f(x)

​任何随机变量都有相应的分布函数。

f(x)​的几何意义如下:

​密度函数与分布函数的关系:

(1)积分关系:F(x) = \int_{ - \infty }^x {f(x)dx}

(2)导数关系:若f(x)​在x​处连续,F'(x) = f(x)​。

3、似然函数

似然函数是一种关于统计模型中的参数的函数,表示模型参数的似然性。似然函数是给定联合样本值x关于(未知)参数\theta的函数:

L(\theta |x) = f(x|\theta )

f(x|\theta )是一个密度函数,表示\theta下关于联合样本值x的联合密度函数。

假如连续型随机变量x的概率密度函数为f(x|\theta ),样本集D上有m个样本,则D上的似然函数为:

 L(\theta |D) = \prod\limits_i^m {f({x_i}|\theta )}

4、最大似然估计的原理

最大似然估计(Maximum Likelihood Estimation,简称MLE)。它是机器学习中常用的一种参数估计方法。它提供了一种给定观测数据来评估模型参数的方法。也就是模型已知,参数未定。利用已知样本结果(统计概率)反推最有可能导致这样结果的参数值。

最大似然估计中采样需满足一个很重要的假设,就是所有的采样都是独立同分布的。

首先假设{x_1},{x_2}, \cdots ,{x_n}为独立同分布的采样,\theta为模型参数,f为我们所使用的模型,遵循上述的独立同分布假设。参数为\theta的模型f产生上述采样可表示为:

f({x_1},{x_2}, \cdots ,{x_n}|\theta ) = f({x_1}|\theta ) \times f({x_2}|\theta ) \times \cdots \times f({x_n}|\theta )

回到上面的“模型已定,参数未知”的说法,此时,已知的为{x_1},{x_2}, \cdots ,{x_n},未知的为\theta,故似然函数定义为:

L(\theta |{x_1}, \cdots ,{x_n}) = f({x_1}, \cdots ,{x_n}|\theta ) = \prod\limits_{i = 1}^n {f({x_i}|\theta )}

在实际应用中常用的是两边取对数,得到公式如下:

\begin{array}{l} \ln L(\theta |{x_1}, \cdots ,{x_n}) = \sum\limits_{i = 1}^n {\ln f({x_i}|\theta )} \\ \hat \ell = \frac{1}{n}\ln L \end{array}

其中\ln L(\theta |{x_1}, \cdots ,{x_n})称为对数似然,而\hat \ell称为平均对数似然。而平时所称的最大似然为最大的对数平均似然,即:

{\hat \theta _{mle}} = \mathop {\arg \max }\limits_{\theta \in \Theta } \hat \ell (\theta |{x_1}, \cdots ,{x_n})

5、最大似然估计的求解步骤:

(1)写出似然函数:

L(\theta ) = L(\theta |{x_1}, \cdots ,{x_n}) = \prod\limits_{i = 1}^n {p({x_i}|\theta )}(离散型随机变量)

L(\theta ) = L(\theta |{x_1}, \cdots ,{x_n}) = \prod\limits_{i = 1}^n {f({x_i}|\theta )}(连续型随机变量)

(2)取对数\ln L

(3)对{x_1},{x_2}, \cdots ,{x_n}求偏导数\frac{​{\partial \ln L}}{​{\partial {\theta _i}}},i = 1,2, \cdots ,m

(4)判断方程组\frac{​{\partial \ln L}}{​{\partial {\theta _i}}}是否有解,若有解,则其解即为所求的最大似然估计,若无解,则最大似然估计常在{\theta _i}的边界上到达。

关注微信公众号【有梦想的程序星空】,了解软件系统和人工智能算法领域的前沿知识,让我们一起学习、一起进步吧!

  • 17
    点赞
  • 86
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
极大似然估计(Maximum Likelihood Estimation,简称MLE)是统计学中一种参数估计方法,指寻找最有可能(最大概率)解释已观察到的数据的参数值。USTC是中国科学技术大学的简称。 在USTC中,极大似然估计是统计学和概率论中的基础概念和方法之一。它被广泛应用于各个学科的研究和实践中,特别是与数据分析、模型拟合、测试假设等相关的领域。 极大似然估计的基本思想是,根据已观察到的数据,通过估计参数的取值,使得生成这些数据的概率最大化。通常需要假设数据服从某个概率分布,并且已有的观测数据是独立同分布的。 在实际应用中,极大似然估计方法有很多具体的步骤和技巧。一般来说,首先需要建立概率模型,并假设参数的取值空间。然后,利用已观测到的数据,计算参数取值下数据发生的概率,即似然函数。接下来,通过对似然函数进行最大化的优化,得到估计的参数值。最后,通过对参数的估计值进行验证和推断,对模型的有效性和可靠性进行评估。 USTC作为一所综合性、研究型、世界一流的大学,极大似然估计作为统计学中的重要概念和方法,也在该校的相关学科教学和研究中得到广泛应用。通过学习和掌握极大似然估计,USTC的学生能够在未来的研究、数据分析和决策过程中,更好地处理和利用观测到的数据,提高模型的精确性和可靠性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

程序遇上智能星空

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值