深度学习之损失函数理解

最新推荐文章于 2023-07-25 12:35:50 发布

～沐春风～

最新推荐文章于 2023-07-25 12:35:50 发布

阅读量972

点赞数 1

分类专栏：深度学习文章标签：机器学习深度学习

本文链接：https://blog.csdn.net/Skymelu/article/details/105718532

版权

深度学习专栏收录该内容

5 篇文章 1 订阅

订阅专栏

为什么要用到损失函数？
输入：训练集 $X=[x^{(1)},x^{(2)},...x^{(i)}...x^{(m)}]$ ，假设 $x^{(i)}$ 为一张图片转化成的多维向量（如上一篇博客所讲）。 $Y=[y^{(1)},y^{(2)},...y^{(i)}...y^{(m)}]$ ， $y^{(m)}$ 为 $x^{(i)}$ 对应的标签值，若 $x^{(i)}$ 图片显示为cat，则 $y^{(i)}$ 为1，否则为0。
执行：（1）将训练集 $x^{(i)}$ 带入假设函数 $z^{(i)}=w^Tx^{(i)}+b$ 从而训练 $w$ 和 $b$ ；（2）将 $z^{(i)}$ 作为自变量，放入 $s i g m o i d$ 函数（激活函数）中，即为 $f(z^{(i)})=\frac{1}{1+e^{-z^{(i)}}}$ ；
输出： $\widehat{y^{(i)}}=f(z^{(i)})$ ；
那么问题来了，如何来衡量 $\widehat{y^{(i)}}$ 与标签值 $y^{(i)}$ 的近似程度?从而调整 $w$ 和 $b$ ？损失函数就是衡量的方法，来衡量预测输出值和实际值有多接近。
损失函数
在逻辑回归中用到的损失函数是： $L(\widehat{y},y)=-ylog(\widehat{y})-(1-y)log(1-\widehat{y})$ 为什么要用到这个函数？比如：
我们的最终目的是让 $L(\widehat{y},y)$ 变小，从而表明预测值与实际值相近，上面这个函数就很好的解决了这个问题。
当 $y = 1$ 时损失函数 $L(\widehat{y},y)=-log(\widehat{y})$ ，如果想要损失函数 $L$ 尽可能得小，那么 $\widehat{y}$ 就要尽可能大，因为sigmoid函数取值[0,1]，所以 $\widehat{y}$ 会无限接近于1。
当 $y = 0$ 时损失函数 $L(\widehat{y},y)=-log(1-\widehat{y})$ ，如果想要损失函数 $L$ 尽可能得小，那么 $\widehat{y}$ 就要尽可能小，因为sigmoid函数取值[0,1]，所以 $\widehat{y}$ 会无限接近于0。
损失函数是在单个训练样本中定义的，它衡量的是算法在单个训练样本中表现如何，为了衡量算法在全部训练样本上的表现如何，我们需要定义一个算法的代价函数，算法的代价函数是对 $m$ 个样本的损失函数求和然后除以 $m$ : $J(w,b)=\frac{1}{m}\sum_{i=1}^m{L(\widehat{y^i},y^{(i)})}=\frac{1}{m}\sum_{i=1}^m{(-y^{(i)}log(\widehat{y^{(i)}})-(1-y^{(i)})log(1-\widehat{y^{(i)}}))}$
$J (w, b)$ 函数图如下：
在这里插入图片描述

损失函数只适用于像这样的单个训练样本，而代价函数是参数的总代价，所以在训练逻辑回归模型时候，我们需要找到合适的 $w$ 和 $b$ ，来让代价函数 $J$ 的总代价降到最低，代价越低，则 $w$ 和 $b$ 越准确。
关山初度尘未洗，策马扬鞭再奋蹄！

～沐春风～

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
深度学习之损失函数理解

为什么要用到损失函数？输入：训练集X=[x1x^1x1,x2x^2x2,…xix^ixi…xmx^mxm]，假设xix^ixi为一张图片转化成的多维向量（如上一篇博客所讲）。Y=[y1y^1y1,y2y^2y2,…yiy^iyi…ymy^mym]，ymy^mym为xix^ixi对应的标签值，若xix^ixi图片显示为cat，则yiy^iyi为1，否则为0。执行：（1）将训练集xix^ixi带入...
复制链接

扫一扫