最大似然估计与损失函数

本文深入探讨最大似然估计的概念,解释其一般理论和性质,并通过实例展示了如何使用最大似然估计推导逻辑回归和线性回归的损失函数。最大似然估计在训练模型时等价于最小化损失函数,例如交叉熵,它能够有效避免在数据绝对值较大时梯度饱和的问题。同时,文章阐述了最大似然估计在样本数量趋向无限时的优良渐近估计性质。
摘要由CSDN通过智能技术生成

关于最大似然估计法的基本原理请参考《概率论与数理统计》P152或参考《深度学习》chpt 5.5

1、最大似然估计的一般理论

我们希望可以有些准则可以让我们从不同的模型中得到特定函数作为好的估计。
最常用的准则是最大似然估计。

我们考虑一组含有m个样本的数据集 X = { x ( 1 ) , . . . , x ( m ) } X=\{x^{(1)},...,x^{(m)}\} X={ x(1),...,x(m)},独立的由真正但未知的数据生成分布 p d a t a ( x ) p_{data}(x) pdata(x)生成。

p m o d e l ( x ; θ ) p_{model}(x; \theta) pmodel(x;θ) 是一族由 θ \theta θ确定在相同空间上的概率分布。换言之, p m o d e l ( x ; θ ) pmodel(x; \theta) pmodel(x;θ)$
将任意输入x 映射到实数来估计真实概率 p d a t a ( x ) p_{data}(x) pdata(x)

θ \theta θ 的最大似然估计被定义为:
θ M L = arg ⁡ max ⁡ θ p m o d e l ( X ; θ ) = arg ⁡ max ⁡ θ Π i = 1 m p m o d e l ( x ( i ) ; θ ) \begin{aligned} \theta_{ML} &= \arg \max_\theta p_{model}(X; \theta) \\ &= \arg \max_\theta Π_{i=1}^m p_{model}(x^{(i)}; \theta) \end{aligned} θML=argθmaxpmodel(X;θ)=argθmaxΠi=1mpmodel(x(i);θ)
多个概率的乘积会因很多原因不便于计算。例如,计算中很可能会出现数值
下溢。为了得到一个便于计算的等价优化问题,我们观察到似然对数不会改变其
arg ⁡ max ⁡ \arg \max argmax 但是将乘积转化成了便于计算的求和形式:

θ M L = arg ⁡ max ⁡ θ ∑ i = 1 m log ⁡ p m o d e l ( x ( i ) ; θ ) \theta_{ML} = \arg \max_\theta \sum_{i=1}^m \log p_{model}(x^{(i)}; \theta) θML=argθmaxi=1mlogpmodel(x(i);θ)

因为当我们重新缩放代价函数时 arg ⁡ max ⁡ \arg \max argmax 不会改变,我们可以除以m 得到和训练数
据经验分布 p ∗ d a t a p*_{data} pdata 相关的期望作为准则:
θ M L = arg ⁡ max ⁡ θ E x − p ∗ d a t a log ⁡ p m o d e l ( x ; θ ) : \theta_{ML} = \arg \max_\theta E_{x-p*_{data}} \log p_{model}(x; \theta ): θML=argθmaxExpdatalogpmodel(x;θ):

注意,虽然期望值的形式是根据各个值出现的概率加权平均,但事实上就等于将所有样本都直接求平均的效果是一样的。

也就是说,最大似然估计的最后推导结果可以用期望值表示。所以很多时候我们说某个算法的损失函数是其条件概率分布的期望值,也就是等价与其最大似然估计。

另一种解释最大似然估计的观点是将它看作最小化训练集上的经验分布 p ∗ d a t a p*_{data} pdata 和模型分布之间的差异,两者之间的差异程度可以通过KL 散度度量。KL 散度被定义为
D K L ( p ∗ d a t a ∣ ∣ p m o d e l ) = E x − p ∗ d a t a [ log ⁡ p ∗ d a t a ( x ) − log ⁡ p m o d e l ( x ) ] D_{KL}(p*_{data}||p_{model}) = E_{x-p*_{data}}[\log p*_{data}(x) - \log p_{model}(x)] DKL(pdatapmodel)=Expdata[logpda

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值