网络收敛是什么意思_深度学习网络收敛之后的loss数值代表什么？

最新推荐文章于 2023-12-26 15:48:52 发布

weixin_39553705

最新推荐文章于 2023-12-26 15:48:52 发布

阅读量2.8k

点赞数 2

文章标签：网络收敛是什么意思

本文链接：https://blog.csdn.net/weixin_39553705/article/details/113722219

版权

忽略loss函数直接对loss数值进行讨论... 嗯～～～天呐！流氓！

loss数值代表啥呢？我觉得代表的就是你的模型输出与真实结果之间的距离(度量)，这个距离的计算方式是你自己定义的(loss函数)，所以这个数值代表啥得看你怎么定义这个loss。

一、交叉熵

假设你在训练一个简单的分类模型，使用交叉熵作为损失函数，交叉熵损失函数如下：

$equation?tex=L+%3D+%5Cfrac+%7B1%7D%7BN%7D+%5Csum_+%7Bi%3D1%7D%5E%7BN%7D+%7B%28-+%5Csum_%7Bc%3D1%7D%5E%7BC%7D%7By_%7Bic%7D%7Dlog%28p_%7Bic%7D%29%29%7D+%5Ctag%7B1%7D+%5C%5C$

其中

equation?tex=N 为总的样本数，

equation?tex=C 为总的类别数，

equation?tex=y_%7Bic%7D 为one-hot标签，当

equation?tex=y_%7Bi%7D 的类别为

equation?tex=c 时

equation?tex=y_%7Bic%7D+%3D+1 ，否则为

equation?tex=0 。我们把问题简化，令

equation?tex=N+%3D+1 ，

equation?tex=C+%3D+2 ，则有

equation?tex=L+%3D++-%5By%5C+log+%5C+p%5C+%2B%5C+%281-y%29%5C+log%5C+%281-p%29%5D++%5Ctag%7B2%7D+%5C%5C

首先我们由

equation?tex=%281%29 中的变量解释可知

equation?tex=y 只能为

equation?tex=0 或

equation?tex=1 ，我们假设

equation?tex=y%3D1 (

equation?tex=y%3D0 同理)，则

equation?tex=L+%3D++-y%5C+log+%5C+p%5C++%5Ctag%7B3%7D+%5C%5C

于是有如下推导：

equation?tex=L%3D0%5CRightarrow+log%5C+p%3D0%5CRightarrow+p%3D1+%5Ctag%7B4%7D+%5C%5C .

那么下面我们看看这个

equation?tex=p 是怎么来的。

一般们会将网络的输出(logits)使用Softmax转化为概率分布，再与one-hot label计算交叉熵，Softmax的计算方法如下：

$equation?tex=f%28x_%7Bi%7D%29%3D%5Cfrac%7Be%5E%7Bx_i%7D%7D%7B%5Csum_%7Bc%3D1%7D%5E%7BC%7D%7Be%5E%7Bx_c%7D%7D%7D+%5Ctag%7B5%7D+%5C%5C$

其中

equation?tex=i%3D0%2C1%2C2%2C...%2CC ，

equation?tex=f%28x_i%29 即输出

equation?tex=x_i 转化为的概率(对应上面的

equation?tex=p ).

显然，对于任意的

equation?tex=c ，都有

equation?tex=e%5E%7Bx_c%7D%3E0 ，因此，对于任意的

equation?tex=x_i ，都有

equation?tex=f%28x%29%5Cin%280%2C1%29 (前开后开)，

equation?tex=p 不能取到

equation?tex=1 ，这与

equation?tex=%284%29 中

equation?tex=L%3D0 的必要条件矛盾，故

equation?tex=L 不能为

equation?tex=0 .

因此，当你使用交叉熵作为损失函数的时候，loss也确实不能收敛到

equation?tex=0 ，没办法，臣妾真的做不到。

二、MSE

假设你在训练一个简单的回归任务，输入数据是你们班同学的身高，回归你们班同学的体重，

假设你们班有十个同学，身高分别是

equation?tex=140%2C141%2C142%2C143%2C144%2C145%2C146%2C147%2C148%2C149 (

equation?tex=cm );体重分别是

equation?tex=100%2C100.5%2C101%2C101.5%2C102%2C102.5%2C103%2C103.5%2C104%2C104.5 (斤)。

你使用的损失函数为MSE

$equation?tex=MSE%3D%5Cfrac%7B1%7D%7BN%7D%5Csum_%7Bi%3D1%7D%5E%7BN%7D%28%7By_i-%5Chat%7By%7D_i%7D%29%5E2+%5Ctag%7B6%7D+%5C%5C$

你使用一个网络开始训练，然后经过你一顿训练，网络收敛了，可能是网络拟合到了

$equation?tex=y%3D%5Cfrac%7B1%7D%7B2%7Dx%5C+%2B%5C+30$ 这个终极公式(就是上面身高体重在二维空间中所在的直线)，也可能是任务太简单，反正你教啥我就学啥，老子直接过拟合，训练loss不再降低了。这时候训练loss是多少呢？那它不就是0吗？

你随便给网络一个身高(这十个人里面的)，网络都给你一个和真实结果一样的预测，你拿MSE一算，嗬，loss还真就是0。

三、其他

这个时候你突然明白了，loss原来是我自己定义的啊，于是你在 MSE(公式

equation?tex=%286%29 )上一顿修改，定义了新的loss

equation?tex=WoDeLoss%3DMSE-1+%5Ctag%7B7%7D+%5C%5C

然后你又重新训练身高体重网络，你盯着loss日志。

嗬，loss降了。

靠，降到

equation?tex=0 了！！！

卧去，怎么降到负数了？？？

以上都是脑洞，但是意思就是那个意思。

溜了溜了。

weixin_39553705

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫