网络收敛是什么意思_深度学习网络收敛之后的loss数值代表什么?

忽略loss函数直接对loss数值进行讨论... 嗯~~~ 天呐!流氓!

loss数值代表啥呢?我觉得代表的就是你的模型输出与真实结果之间的距离(度量),这个距离的计算方式是你自己定义的(loss函数),所以这个数值代表啥得看你怎么定义这个loss。

一、交叉熵

假设你在训练一个简单的分类模型,使用交叉熵作为损失函数,交叉熵损失函数如下:

equation?tex=L+%3D+%5Cfrac+%7B1%7D%7BN%7D+%5Csum_+%7Bi%3D1%7D%5E%7BN%7D+%7B%28-+%5Csum_%7Bc%3D1%7D%5E%7BC%7D%7By_%7Bic%7D%7Dlog%28p_%7Bic%7D%29%29%7D+%5Ctag%7B1%7D+%5C%5C

其中

equation?tex=N 为总的样本数,

equation?tex=C 为总的类别数,

equation?tex=y_%7Bic%7D 为one-hot标签,当

equation?tex=y_%7Bi%7D 的类别为

equation?tex=c

equation?tex=y_%7Bic%7D+%3D+1 ,否则为

equation?tex=0 。我们把问题简化,令

equation?tex=N+%3D+1

equation?tex=C+%3D+2 ,则有

equation?tex=L+%3D++-%5By%5C+log+%5C+p%5C+%2B%5C+%281-y%29%5C+log%5C+%281-p%29%5D++%5Ctag%7B2%7D+%5C%5C

首先我们由

equation?tex=%281%29 中的变量解释可知

equation?tex=y 只能为

equation?tex=0

equation?tex=1 ,我们假设

equation?tex=y%3D1 (

equation?tex=y%3D0 同理),则

equation?tex=L+%3D++-y%5C+log+%5C+p%5C++%5Ctag%7B3%7D+%5C%5C

于是有如下推导:

equation?tex=L%3D0%5CRightarrow+log%5C+p%3D0%5CRightarrow+p%3D1+%5Ctag%7B4%7D+%5C%5C .

那么下面我们看看这个

equation?tex=p 是怎么来的。

一般们会将网络的输出(logits)使用Softmax转化为概率分布,再与one-hot label计算交叉熵,Softmax的计算方法如下:

equation?tex=f%28x_%7Bi%7D%29%3D%5Cfrac%7Be%5E%7Bx_i%7D%7D%7B%5Csum_%7Bc%3D1%7D%5E%7BC%7D%7Be%5E%7Bx_c%7D%7D%7D+%5Ctag%7B5%7D+%5C%5C

其中

equation?tex=i%3D0%2C1%2C2%2C...%2CC

equation?tex=f%28x_i%29 即输出

equation?tex=x_i 转化为的概率(对应上面的

equation?tex=p ).

显然,对于任意的

equation?tex=c ,都有

equation?tex=e%5E%7Bx_c%7D%3E0 ,因此,对于任意的

equation?tex=x_i ,都有

equation?tex=f%28x%29%5Cin%280%2C1%29 (前开后开),

equation?tex=p 不能取到

equation?tex=1 , 这与

equation?tex=%284%29

equation?tex=L%3D0 的必要条件矛盾,故

equation?tex=L 不能为

equation?tex=0 .

因此,当你使用交叉熵作为损失函数的时候,loss也确实不能收敛到

equation?tex=0 ,没办法,臣妾真的做不到。

二、MSE

假设你在训练一个简单的回归任务,输入数据是你们班同学的身高,回归你们班同学的体重,

假设你们班有十个同学,身高分别是

equation?tex=140%2C141%2C142%2C143%2C144%2C145%2C146%2C147%2C148%2C149 (

equation?tex=cm );体重分别是

equation?tex=100%2C100.5%2C101%2C101.5%2C102%2C102.5%2C103%2C103.5%2C104%2C104.5 (斤)。

你使用的损失函数为MSE

equation?tex=MSE%3D%5Cfrac%7B1%7D%7BN%7D%5Csum_%7Bi%3D1%7D%5E%7BN%7D%28%7By_i-%5Chat%7By%7D_i%7D%29%5E2+%5Ctag%7B6%7D+%5C%5C

你使用一个网络开始训练,然后经过你一顿训练,网络收敛了,可能是网络拟合到了

equation?tex=y%3D%5Cfrac%7B1%7D%7B2%7Dx%5C+%2B%5C+30 这个终极公式(就是上面身高体重在二维空间中所在的直线),也可能是任务太简单,反正你教啥我就学啥,老子直接过拟合,训练loss不再降低了。这时候训练loss是多少呢?那它不就是0吗?

你随便给网络一个身高(这十个人里面的),网络都给你一个和真实结果一样的预测,你拿MSE一算,嗬,loss还真就是0。

三、其他

这个时候你突然明白了,loss原来是我自己定义的啊,于是你在 MSE(公式

equation?tex=%286%29 )上一顿修改,定义了新的loss

equation?tex=WoDeLoss%3DMSE-1+%5Ctag%7B7%7D+%5C%5C

然后你又重新训练身高体重网络,你盯着loss日志。

嗬,loss降了。

靠,降到

equation?tex=0 了!!!

卧去,怎么降到负数了???

以上都是脑洞,但是意思就是那个意思。

溜了溜了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值