为什么交叉熵，极大似然，最小二乘能做损失函数？

最新推荐文章于 2024-07-08 19:35:47 发布

这一炉能成

最新推荐文章于 2024-07-08 19:35:47 发布

阅读量159

点赞数 1

分类专栏：疑惑解答文章标签：概率论机器学习神经网络

本文链接：https://blog.csdn.net/as949179700/article/details/120856605

版权

疑惑解答专栏收录该内容

3 篇文章 0 订阅

订阅专栏

最小二乘

$Loss=\frac{1}{m}\sum_{i=1}^m(f(x_i)-y_i)^2$

极大似然估计法如何做损失函数？

什么是极大似然估计法？

似然值是指真实的情况已经发生，我们假设事件有很多概率模型，然后根据概率模型计算真实情况发生的概率。这个概率就叫似然值。

假设投硬币事件，现实世界投十次硬币，7正三反。我们假设理念世界有三个概率模型，分别为

正0.1反0.9
正0.7反0.3
正0.8反0.2

根据这三个概率模型，我们计算现实世界7正3反发生的概率。

$0.1^7·0.9^3$
$0.7^7·0.3^3$
$0.8^7·0.2^3$

上面这三个值就是似然值。

有了似然值的概念，最大似然估计法就自然而然产生了。
- 硬币既然投出了7正3反的结果。那这个硬币它本来的概率模型，虽然我们永远无法准确的确定。但是选择似然值最大的，那这个似然值对应的概率模型就理所应当更靠近硬币原本的概率模型。
这就是极大似然估计法

总结

所以当我们知道事情发生的结果，去反推产生这个结果的概率模型的时候，往往就会用到极大似然估计法。所以极大似然估计法就是在计算神经网络里面的概率模型的似然值。

公式推导

根据上述的投硬币的例子，可以用公式表示 $P(C_1C_2C_3,...,C_{10}|\theta)$ ，其中 $C_i$ 是现实投一次硬币事件。 $\theta$ 是我们假设的概率模型。现在我们将其对应于神经网络

$P_{NN}=P(y_1,y_2,y_3,...,y_m|W,b)$

这表示在 $W, b$ 概率模型下，现实事件 $y_1,...,y_m$ 发生的概率。所以:

$P_{NN}=\prod_{i=1}^mP(y_i|W,b)$

举个例子，如果此时有一个神经网络用来判断某张照片是不是猫。假设有五张照片，现实我们判断三张是猫二张不是。那上述的公式，就是来表示在 $W ， b$ 的情况下，发生三张是猫二张不是的概率。这个结果就是该神经网络的似然值。当这个似然值最大的时候，我们就可以认定W,b确定的概率模型就是"完美神经网络"的本来的概率模型（这里的完美是指跟人脑一样能够完美判断是否是猫的）

我们知道 $W ， b$ 可以判断输入的张片是否是猫的概率，我们假设神经模型输出的值为 $\hat{y_i}$ 。则

$P_{NN}=\prod_{i=1}^mP(y_i|\hat{y_i})$

其次，我们知道 $y_i$ 要么是0，要么是1。也就是说 $y_i$ 符合伯努利分布:

$f(x)=p^x(1-p)^{1-x}=\begin{dcases} p, \enspace x=1 \\ 1-p \enspace, x=0 \end{dcases}$

所以我们能将 $P_{NN}$ 展开为

$P_{NN}=\prod_{i=1}^m\hat{y_i}^{y_i}(1-\hat{y_i}^{1-y_i})$

最后，我们习惯上喜欢连加(也有可能是求导方便）。我们对 $P_{NN}$ 求对数(log不改变单调性)

$logP_{NN}=\sum_{i=1}^mlog(\hat{y_i}^{y_i}(1-\hat{y_i}^{1-y_i}))\\=\sum_{i=1}^m(y_i·log^{\hat{y_i}}+(1-y_i)log^{1-\hat{y_i}})$

回到原本，我们的目的是求似然值最大，所以我们只要求得 $max logP_{NN}$ 。但是在计算的时候我们更习惯求最小值(优化问题)，我们会加个负号，求最小值。

$\min logP_{NN}=\min -\sum_{i=1}^m(y_i·log^{\hat{y_i}}+(1-y_i)log^{1-\hat{y_i}})$

到这里是不是就非常眼熟了？这就是为什么会有极大似然估计法作为损失函数的原因。

交叉熵如何做损失函数?

看这一部分时，需要前置知识。

交叉熵

$\\=\sum_{i=1}^np_i·(-log_2^{q_i})\\=\sum_{i=1}^ny_i·(-log_2^{\hat{y_i}})$

其中，有一点要知道 $y_i$ 的取值是有两种的： $\enspace or \enspace 0$ ，所公式可以继续演变成

$=-\sum_{i=1}^m(y_i·log_2^{\hat{y_i}}+(1-y_i)log_2^{1-\hat{y_i}})$

其中，左半部分是模型判断整例时候的损失，右半部分是判断反例的时候的损失。因为 $log_2^{\hat{y_i}}$ 是模型判断样本 $x_i$ 是正例的信息量，所以 $log_2^{1-\hat{y_i}}$ 就是模型判断 $x_i$ 是反例的信息量了。

这一炉能成

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
为什么交叉熵，极大似然，最小二乘能做损失函数？

最小二乘Loss=1m∑i=1m(f(xi)−yi)2Loss=\frac{1}{m}\sum_{i=1}^m(f(x_i)-y_i)^2Loss=m1i=1∑m(f(xi)−yi)2极大似然估计法如何做损失函数？什么是极大似然估计法？似然值是指真实的情况已经发生，我们假设事件有很多概率模型，然后根据概率模型计算真实情况发生的概率。这个概率就叫似然值。假设投硬币事件，现实世界投十次硬币，7正三反。我们假设理念世界有三个概率模型，分别为正0.1反0.9正0.7反0.3正0.8反0.
复制链接

扫一扫