最大化似然估计,交叉熵

之前看过为什么使用交叉熵作为损失函数的一些文章,认为花书上讲的更接近本质,从最大似然估计出发推导交叉熵,记录一下,有描述不对的地方敬请指教。

什么是最大似然估计?通俗而言,利用已知的样本结果,反推最有可能这样结果的模型参数。

考虑一组含有m个样本的数据集\mathbb{X}=\left\{\boldsymbol{x}^{(1)}, \cdots, \boldsymbol{x}^{(m)}\right\},独立地由未知的真实数据生成分布p_{\text {data }}(x)生成,就是已知的样本。

p_{\text {model }}(\mathbf{x} ; \boldsymbol{\theta})是一族由\boldsymbol{\theta}确定在相同空间上的概率分布。换言之,\boldsymbol{\theta}是模型参数,p_{\text {model }}(\mathbf{x} ; \boldsymbol{\theta})将任意输入x映射到到实数来估计真实概率p_{\text {data }}(x)

\boldsymbol{\theta}的最大似然估计被定义为:

                                                       \begin{aligned} \theta_{\mathrm{ML}} &=\underset{\theta}{\arg \max } p_{\text {model }}(\mathrm{X} ; \theta) \\ &=\underset{\theta}{\arg \max } \prod_{i=1}^{m} p_{\text {model }}\left(x^{(i)} ; \theta\right) \end{aligned}

已知x样本,求解\boldsymbol{\theta}值,使的模型估计概率最大。多项乘积不利于计算,转换为求和形式:

                                                   \boldsymbol{\theta}_{\mathrm{ML}}=\underset{\boldsymbol{\theta}}{\arg \max } \sum_{i=1}^{m} \log p_{\text {model }}\left(\boldsymbol{x}^{(i)} ; \boldsymbol{\theta}\right)

重新缩放代价函数时argmax不会改变。比如,当样本等价分布时,我们除以m得到训练经验分布\hat{p}_{\text {data }}相关的期望作为准则,即交叉熵

                                                   \boldsymbol{\theta}_{\mathrm{ML}}=\underset{\boldsymbol{\theta}}{\arg \max } \mathbb{E}_{\mathbf{x} \sim \hat{p}_{\text {data }}} \log p_{\text {model }}(\boldsymbol{x} ; \boldsymbol{\theta}) {\color{Red} }    

其中,函数f(x)关于某分布P(x)的期望是指:当就是X服从P(x)分布,f作用于x时,f(x)的均值。

                                                    \mathbb{E}_{x \sim P}[f(x)]=\sum_{x} P(x) f(x)

另一种解释最大似然估计的观点是将它看作最小化训练集上的经验分布\hat{p}_{\text {data }}和模型分布之间的差异。两者的差异程度可以通过KL散度度量。

KL散度被定义为:

                               D_{\mathrm{KL}}\left(\hat{p}_{\text {data }} \| p_{\text {model }}\right)=\mathbb{E}_{\mathrm{X} \sim \hat{p}_{\text {data }}}\left[\log \hat{p}_{\text {data }}(x)-\log p_{\text {model }}(x)\right]

上式中,左式仅涉及数据本身,与模型无关。这意味着当训练模型最小化KL散度,我们只需要最小化

                                                        -\mathbb{E}_{\mathbf{x} \sim \hat{p}_{\text {data }}}\left[\log p_{\text {model }}(\boldsymbol{x})\right]

这与下式是等价的。

                                              \boldsymbol{\theta}_{\mathrm{ML}}=\underset{\boldsymbol{\theta}}{\arg \max } \mathbb{E}_{\mathbf{x} \sim \hat{p}_{\text {data }}} \log p_{\text {model }}(\boldsymbol{x} ; \boldsymbol{\theta}) {\color{Red} }

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值