王木头学科学笔记~损失函数是如何设计出来的？直观理解“最小二乘法”和极大似然估计法和交叉熵，比较两个概率模型的思路

未空blog

于 2021-10-14 12:13:23 发布

阅读量763

点赞数

分类专栏：人工智能文章标签：机器学习神经网络概率论

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42324904/article/details/120759388

版权

人工智能专栏收录该内容

5 篇文章

订阅专栏

声明：原作者为哔哩哔哩上up主王木头学科学本人仅在此处做笔记供自己学习分享如果给大家提供帮助就更好了，已征得本人同意。

在训练神经网络的过程中，需要有一个损失函数，来进行梯度下降，那么这个损失函数是怎么设计出来的呢？

最小二乘法
极大似然估计法
交叉熵

神经网络就是线性函数+激活函数，形式上非常简单，却能表现出复杂的智能特性。神经网络它按照人为设定的标准来执行任务，问猫是什么，不知道，但是只需要告诉是不是猫，人家自己就知道训练了，在它那里建立一个标准，和人的标准进行对比，目的就是调整自己和人的标准进行拟合。

人和神经网络交互的接口就是带标签的数据（是不是猫）。

然后我们需要比对人脑和神经网络的标准差距，通过二者不同结果来进行比对。

我们需要通过一些方法来定量比较两个模型差别，说白了这不就是损失函数了。。。

降低损失函数的过程，就是学习的过程，修改权重嘛。下面是两个吴恩达大佬的损失函数。

哈哈哈哈，帅气的木头哥，吴恩达大佬的这两个式子，到底是怎么提出来的呢？总有一种不通透的感觉哈哈哈

input一堆猫的图片，每一个图片有一个标签是不是猫，如果是猫xi就是1，否则0，yi经过sigmoid函数之后，判断是猫的概率是多少，比较两个模型的差直接 $min\ \Sigma |xi - yi|$ 不行吗，为啥平方呢？因为绝对值可能是不可导的，在梯度下降的过程中是要反向求导的，对其进行平方。

最大似然估计：

概率的反向应用. 一个是理念世界，一个是现实世界，理念世界里左边的概率分布是0.5 0.5

现实世界里面就是抛硬币，如果确定了概率，那么理想情况下就是右边绿色的五五开，同样从现实世界也能往理念世界反推，如果抛出来是五五开的，我们很可能认为抛出来概率就是五五开，理念世界和现实世界怎么联系起来，就是通过概率。

如果理念世界确定了五五概率分布，那现实世界也可能出现三七开和二八开，都可能，一九开也可能。

同样的道理，如果现实世界是七三，那么上图左边的分布律也有可能出现呀？都有可能呀

但是上述三个概率模型并不是等价的。

这个公式指的是，在这样的概率模型下，投出右边的概率是多少。

这些个可能性，是从真实世界反退回来的，其实也是可能性，就叫似然值。最大似然就是选一个最可能出现这样分布的。也就是第二个出现的可能性是最大的。

下面将极大似然估计放在神经网络里。

同样的，所有的图片（上图中只画了猫），标签是xi为0或1，输出是yi，

W,b表示的是这个模型。和上面的 $\Theta$ 一样，x1x2...对应的硬币的正反（现实世界），也就是说用理论世界的模型，判断出现这样的结果的概率，通过更改这个模型，得到的概率最大，就可以找到这个最拟合的模型。

将所有的结果连乘判断概率（这里感觉应该是当成独立，不是很清楚），

（还有这个公式我也不是很懂，yi当然是NN预测出来的，可是为什么可以用它代替这个模型呢。这个就不懂了）

下面换成了这个之后就是很easy的概率论问题了，很显然，这是一个伯努利分布，因为 $x_{i}\in {0,1}$ 。

因为y就是p，所以上面左边式子可以换成右边式子。

因为我们是需要找到这个的最大值，所以我们加上一个log，并不影响单调性，但是可以将其换成连加的形式，

找到似然值最大的概率模型，加个-变成找最小，

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。