损失函数

本文详细介绍了多种损失函数,包括平方损失函数(最小二乘法)、均方误差及其与Sigmoid激活函数的结合,讨论了学习率缓慢的问题。接着讲解了交叉熵损失,包括其在逻辑回归和Sigmoid激活函数中的应用,以及如何解决梯度消失问题。还提到了指数损失函数(Adaboost)和Hinge损失函数(SVM)。最后,文章探讨了防止梯度爆炸的Smooth L1损失函数,并总结了Keras和TensorFlow中的常见成本函数。
摘要由CSDN通过智能技术生成


损失函数(loss function)是用来估量模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。损失函数分为经验风险损失函数和结构风险损失函数,经验风险损失函数反映的是预测结果和实际结果之间的差别,结构风险损失函数则是经验风险损失函数加上正则项(L0、L1(Lasso)、L2(Ridge))。
损失函数是经验风险函数的核心部分,也是结构风险函数重要组成部分。模型的结构风险函数包括了经验风险项和正则项,通常可以表示成如下式子: 在这里插入图片描述

一、平方损失函数(最小二乘法, Ordinary Least Squares )

最小二乘法是线性回归的一种,最小二乘法(OLS)将问题转化成了一个凸优化问题。在线性回归中,它假设样本和噪声都服从高斯分布(为什么假设成高斯分布呢?其实这里隐藏了一个小知识点,就是中心极限定理,可以参考【central limit theorem】),最后通过极大似然估计(MLE)可以推导出最小二乘式子。最小二乘的基本原则是:最优拟合直线应该是使各点到回归直线的距离和最小的直线,即平方和最小。换言之,OLS是基于距离的,而这个距离就是我们用的最多的欧几里得距离。为什么它会选择使用欧式距离作为误差度量呢(即Mean squared error, MSE),主要有以下几个原因:

  • 简单,计算方便;
  • 欧氏距离是一种很好的相似性度量标准
  • 在不同的表示域变换后特征性质不变。
    平方损失(Square loss)的标准形式如下:
    在这里插入图片描述
    当样本个数为n时,此时的损失函数变为:
    在这里插入图片描述
    Y-f(X)表示的是残差,整个式子表示的是残差的平方和,而我们的目的就是最小化这个目标函数值(注:该式子未加入正则项),也就是最小化残差的平方和(residual sum of squares,RSS)。

而在实际应用中,通常会使用均方差(MSE)作为一项衡量指标,公式如下:
在这里插入图片描述

均方误差

我们以神经网络中激活函数的形式表达一下,定义如下:
在这里插入图片描述
其中, a=f(z)=f(w·x+b) :x是输入、w和b是网络的参数、 f(·) 是激活函数。

ESM均方误差+Sigmoid激活函数:输出层神经元学习率缓慢

Sigmoid激活函数:

这个激活函数再熟悉不过了,该函数能将负无穷到正无穷的数映射到0和1之间。先来看一下表达式以及函数图像:
在这里插入图片描述
Sigmoid的导数推导以及图像:

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值