极大似然估计与熵

最新推荐文章于 2021-11-21 21:44:58 发布

_朝闻道_

最新推荐文章于 2021-11-21 21:44:58 发布

阅读量577

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_42231070/article/details/82807913

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

极大似然估计与交叉熵

概统学了没多久又忘了，没理解透彻，这次稍微复习一下。

一、极大似然估计

在已知试验结果的情况下，用来估计满足这些样本分布的参数，把可能性最大的参数作为真实的参数估计。
$p(x|\theta)$ ， $x$ 表示样本， $\theta$ 表示参数，样本已经发生了，我们要求的就是一个参数，让样本发生的概率最大，即 $p(x|\theta)$ 最大。如果 $x$ 为离散型随机变量，即{ $x_1,x_2,x_3...,x_{n-1},x_n$ } ，那么 $p(x|\theta)$ 可以表示为 $\displaystyle\prod_{i=1}^{n} p(x_i|\theta)$ ，连续的话就改为密度函数即可，计算过程中往往会取对数简化计算。

二、熵

信息熵定义

假设 $X$ 是一个离散型随机变量，其取值集合为 $χ$ ,概率分布函数 $p(x)=P_r(X=x),x∈χ$ ,则定义事件 $X=x_0$ 的信息量为： $I(x_0)=−log(p(x_0))$

则 信息熵 $H(X)=-\displaystyle\sum_{i=1}^{n}p(xi)log(p(xi))$

而条件熵 $H(Y|X)=\displaystyle\sum_{x\in X}P(x)H(Y|x)=-\displaystyle\sum_{x\in X}P(x)\displaystyle\sum_{y\in Y}P(y|x)logP(y|x)$ 。信息熵减去条件熵即是互信息，这就是ID3决策树的分类依据。

预测输出即 Sigmoid 函数的输出表征了当前样本标签为 1 的概率：
$y_r=P(y=1|x)$
很明显，当前样本标签为 0 的概率就可以表达成：
$1−y_r=P(y=0|x)$
重点来了，如果我们从极大似然性的角度出发，把上面两种情况整合到一起：
$P(y|x;\theta)=y_r^y⋅(1−y_r)^{1−y}$
极大似然估计就是说， $\theta,x$ 是已经确定的，我们要让上面的式子最大，为了方便计算，左右取对数，如果左右乘负号，就变成了我们熟悉的交叉熵的形式了。

交叉熵

交叉熵是由相对熵变形过来的。
在这里插入图片描述

多分类问题

在多分类问题中，我们的输出不再是一个，往往是多个值，在神经网络中控制输出层结点的个数。通过softmax函数后（归一化，各类概率综合为1），再用交叉熵的形式求损失函数。这个和之前讲的二分类有一定关联，比如是第一类就不可能是第二类或第三类，可以抽象为二分类问题，因此我们使用onehot编码，计算只需相乘即可。

参考资料：
https://blog.csdn.net/tsyccnh/article/details/79163834
https://blog.csdn.net/red_stone1/article/details/80735068

_朝闻道_

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
极大似然估计与熵

极大似然估计与交叉熵概统学了没多久又忘了，没理解透彻，这次稍微复习一下。一、极大似然估计在已知试验结果的情况下，用来估计满足这些样本分布的参数，把可能性最大的参数作为真实的参数估计。p(x∣θ)p(x|\theta)p(x∣θ)，xxx表示样本，θ\thetaθ表示参数，样本已经发生了，我们要求的就是一个参数，让样本发生的概率最大，即p(x∣θ)p(x|\theta)p(x∣θ)最大。...
复制链接

扫一扫