深度学习中常用的损失函数

深度学习中常用的损失函数

(注:后续还会更新特殊的损失函数介绍)
在机器学习中,损失函数(loss function)是用来估量模型的预测值f(x)与真实值Y的不一致程度,损失函数越小,一般就代表模型的鲁棒性越好,可以说机器学习的最终目的就是让损失函数最小化。

机器学习的任务本质上是两大类,分类问题与回归问题。

回归损失函数

1、MSEMean Squared Error)
在这里插入图片描述
这里的就表示期望输出,表示原始的实际输出(就是还没有加softmax)。这里的m表示有m个样本,loss为m个样本的loss均值。

2、Smooth L1损失
Smooth L1损失是为了解决梯度爆炸问题的。
在这里插入图片描述
在这里插入图片描述
这里自己推导一下反向传播就知道了。

分类损失函数

1、交叉熵损失函数 (Cross-entropy loss function)
在这里插入图片描述
上面这是二分类的交叉熵损失函数,下面是多分类的交叉熵损失函数。
在这里插入图片描述
交叉熵损失函数的推导,有两个层次。a、为什么不用MSE要用cross-entropy?b、交叉熵损失函数的原理是什么?
首先我们来说第一个问题,说第一个问题之前得先说明白凸函数的问题。一个函数是凸函数的话,他的局部最优解就是全局最优解,反之则不是。
以二分类问题为例,MSE在处理分类问题的时候若激励函数是softmax函数,他的函数图像在x<0的部分就是非凸的,所以没办法找到全局最优解。(详见https://blog.csdn.net/weixin_37567451/article/details/80895309)
在这里插入图片描述
在这里插入图片描述
但是交叉熵损失函数的话。
在这里插入图片描述
所以这就是我们选择交叉熵损失函数作为分类损失函数的原因。
假如换成sigmoid函数的话(https://blog.csdn.net/zhangjunp3/article/details/80467350):
在这里插入图片描述
在这里插入图片描述
解决方案就是更换激活函数,比如说relu等。
第二个问题:KL散度 = 交叉熵 - 信息熵
在这里插入图片描述
具体分析详见https://blog.csdn.net/b1055077005/article/details/100152102

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值