【AI数学篇】通俗易懂的帮助你理解“什么是极大似然估计”?

在深度学习中,极大似然估计极为重要。什么是极大似然函数?网上的百度百科是这样的。

或许你看完这段话现在是这个状态:

没关系,我会基于我的理解尽我最大的努力帮助你进行理解“极大似然估计”的概念。

我们通常会有一个模型(比如神经网络),以及一组数据(训练集)。这组数据是已知的,而且我们知道它们对应的结果(也就是标签)。我们的目标是找到一个参数值,使得我们的模型在该参数值下,对这组数据进行预测的概率最大。这个思想就是极大似然函数的思想。(建议把这段话重复读三次,有助于理解)

最大似然估计的核心思想是找到一组参数,使得在这组参数下观测到现有样本的数据的概率最大。也就是找到最有可能(maximum likelihood)产生现有数据的一组参数。
具体做法是构建样本的联合似然函数,然后求解使该似然函数最大化的一组参数。这组参数被认为是最有可能产生现有数据的。即通过最大化所有样本的联合似然函数L,找到使L达到最大值的参数θ(w,b)。

通俗理解来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值!换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。

(建议把这段话重复读三次,有助于理解)

对于教材的繁琐公式,我们现在没办法去对这些公式进行推导,对于学习深度学习的我们来说,我能帮助你的是尽最大努力以最通俗易懂的方式帮助你对“极大似然估计”的概念进行理解。

我用一个简单的例子来通俗地解释一下最大似然估计的核心思想:

假设一家餐厅的客户平均消费价格为20元。有一天,随机选取了10个客户,他们的消费记录如下:

18元,15元,22元,21元,16元,19元,23元,17元,20元,24元

现在我们要根据这10个客户的消费数据,估计这个餐厅客户的整体平均消费价格。

采用最大似然估计的思路,我们可以假设不同的平均消费价格,然后计算在这个平均价下观察到当前数据的概率,找出概率最大的那个平均价。

首先,我们知道餐厅的客户平均消费价格为20元。现在我们观察到了10个客户的消费数据,这些数据已经给出。

我们的目标是找到一个平均消费价格,使得在给定这个价格的条件下,观察到当前数据的概率最大化。

为了找到这个平均消费价格,我们需要计算在给定平均价格的条件下,观察到当前数据的概率。对于这个问题,我们可以将观察到当前数据的概率写成以下形式:

P(数据|平均价格) = [(18-平均价格)^2 + (15-平均价格)^2 + ... + (24-平均价格)^2] / 10

这个公式的含义是:以给定的平均消费价格为基准,每个客户的消费价格与平均价格的差距的平方,然后求和,再除以10。

我猜你会问为什么要采取这个公式:(你可以理解成损失函数)

为什么要这样计算呢?这是因为在统计学中,我们通常用方差来衡量一组数据的离散程度。方差越大,表示数据越离散,也就是各个数据值与平均值的差距越大;方差越小,表示数据越集中,也就是各个数据值与平均值的差距越小。

所以,我们通过计算每个客户的消费金额与平均消费价格的差距的平方,然后将这些平方值加起来,再除以10,实际上是在计算这组数据的方差。这个公式的值越小,表示这组数据的离散程度越小,也就是各个数据值与平均值的差距越小。

最后,我们要找到一个平均消费价格,使得这个公式的值最小。因为只有这样,我们才能使得这10个客户的消费金额在该平均价格的附近出现的概率最大。

所以,这个公式的含义是计算数据的方差,我们希望找到一个参数值(平均消费价格),使得该参数值下观察到的数据方差最小,也就是数据最集中。这就是为什么要用这个公式的原因。

现在我们来求这个概率的最大值。为了找到最大值,我们需要找到一个平均消费价格,使得P(数据|平均价格)的导数等于0。对于这个问题,我们可以将P(数据|平均价格)的导数写成以下形式:

P'(数据|平均价格) = -2 * [(18-平均价格) + (15-平均价格) + ... + (24-平均价格)] / 10

将上面的公式展开,可以得到:

P'(数据|平均价格) = -2 * [(-3平均价格 + 87)] / 10

*使P'(数据|平均价格)等于0的平均消费价格就是我们要找的平均价格。通过求解-2 * [(-3*平均价格 + 87)] / 10 = 0,我们可以找到这个平均消费价格。

现在我们来求解这个方程:

-2 * [(-3*平均价格 + 87)] / 10 = 0

这是一个一元一次方程,解得:

平均价格 = ((18+15+...+24)/10) = 20元

所以,通过最大似然估计,我们得到这个餐厅的客户的整体平均消费价格约为20元。这个值是在给定数据下概率最大的估计值。

好啦,现在再回到开头理解这句话:

最大似然估计的核心思想是找到一组参数,使得在这组参数下观测到现有样本的数据的概率最大。也就是找到最有可能(maximum likelihood)产生现有数据的一组参数。

那么,你现在对“极大似然估计”有更进一步的理解了吗?欢迎评论区告诉我吧,如果还有疑问的地方欢迎私信留言

  • 23
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值