吴恩达深度学习——2.3 logistic回归损失函数

最新推荐文章于 2023-02-06 23:14:05 发布

然后就去远行吧

最新推荐文章于 2023-02-06 23:14:05 发布

阅读量332

点赞数

分类专栏：吴恩达深度学习

本文链接：https://blog.csdn.net/qq_37388085/article/details/103246426

版权

吴恩达深度学习专栏收录该内容

61 篇文章 30 订阅

订阅专栏

为了训练logistic回归模型的参数w和b，需要定义一个成本函数，让我们来看一下，用logistic回归来训练的成本函数，回忆一下，这是上一张幻灯片的函数，所以你的输出 $\hat{y}=sigmoid(w^Tx+b)$ ，这里定义为sigmoid(z)。

在这里插入图片描述

为了让模型通过学习来调整参数，要给一个m个样本的训练集。很自然地，你想通过在训练集，找到参数w和b来得到你的输出。对于训练集中的预测值 $\hat{y}$ ，我们希望它会接近于在训练集中的 $y^{i}$ 值。

为了让上面的方程更详细一些，需要说明上面这里定义的 $\hat{y}$ 是对一个训练样本x来说的。对于每个训练样本，使用这些带有圆括号的上标，方便引用说明，还有区分样本。

你的训练样本 $x^{(i)}$ 对应的预测值是 $\hat{y}$ ，这是训练样本通过sigmoid函数作用到 $w^Tx+b$ 得到的。在这门课中，我们将使用这个符号约定，就是这个上标 $(i)$ 来指明数据，表示x或者y或者z或者其它的数据与第i个训练样本有关，这就是上标 $(i)$ 的含义。

现在我们来看看损失函数，或叫做误差函数，它们可以用来衡量算法的运行情况，，可以定义损失为 $\hat{y}$ 和y的差的平方，或者它们差的平方的二分之一，结果表明你可以这样做，但通常在logistic回归中，大家都不这样做，因为当你学习这些参数的时候，你会发现之后讨论的优化问题会变成非凸的，最后会得到很多个局部最优解。使用梯度下降法，可能找不到全局最优值。这个直观的理解是，我们通过定义这个损失函数L来衡量你的预测输出值 $\hat{y}$ 与实际值y有多接近。误差平方，看起来似乎是一个合理的选择，但用这个的话，梯度下降法就不太好用。

在逻辑回归中，我们会定义一个不同的损失函数，它起着与误差平方相似的作用，但是这个损失函数会给我们一个凸优化问题。

在逻辑回归中，我们用的损失函数为 $Loss(\hat{y},y)=-(ylog(\hat{y})+(1-y)log(1-\hat{y}))$ 直观地看为何这个损失函数能起作用，记得如果我们使用误差平方越小越好，对于这个逻辑回归的损失函数，同样的，我们也想让它尽可能地小。

为了更好地理解为什么这个损失函数能够起作用，让我们来看两个例子，在第一个例子中，我们说y=1时，那么损失函数可以表示为 $Loss(\hat{y},y)=-ylog(\hat{y})$ 因为如果y=1，那么第二项1-y就等于0，这就是说当y=1时，你想让 $-ylog(\hat{y})$ 尽可能小，这意味着，想让 $log(\hat{y})$ 尽可能大，这也意味着，你想要 $\hat{y}$ 尽可能大。但是因为 $\hat{y}$ 是sigmoid函数得出的，永远不会比1大、也就是说，如果y=1时，你会想让 $\hat{y}$ 尽可能的大，但它永远不会大于1，所以你要让 $\hat{y}$ 接近1,。

另一个情况就是，如果y=0，损失函数的第一项等于0，第二项就是这个损失函数，损失函数变为 $Loss(\hat{y},y)=-log(1-\hat{y})$ 在学习过程中，想让损失函数小一些，也就意味着你想要 $log(1-\hat{y})$ 足够大，因为这里有一个负号，通过这一系列推理，你可以得出，损失函数让 $\hat{y}$ 尽可能地小，因为 $\hat{y}$ 只能介于0到1之间，这就是说，当y=0时，损失函数会让这些参数，让 $\hat{y}$ 尽可能地接近0，有很多函数都能达到这个效果。如果y=1，我们尽可能让 $\hat{y}$ 很大，如果y=0，尽可能让 $\hat{y}$ 足够小。

最后说一下，损失函数是单个训练样本中定义的，他衡量了在单个训练样本上的表现，下面要定义一个成本函数，它衡量的是在全体训练样本上的表现，这个成本函数为 $J(w,b)=\frac{1}{m}\sum_{i=1}^mLoss(\hat{y^{(i)}},y^{(i)})=-\frac{1}{m}\sum_{i=1}^m[y^{(i)}log(\hat{y^{(i)}})+(1-y^{(i)})log(1-\hat{y^{(i)}})]$ 这个成本函数是基于参数的总成本，所以在训练逻辑回归模型时，我们要找到合适的参数w和b，让这个成本函数J尽可能小。

逻辑回归函数可以被看做是一个非常小的神经网络，在下一节课中，我们将会直观地去理解神经网络能做什么。

然后就去远行吧

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
吴恩达深度学习——2.3 logistic回归损失函数

为了训练logistic回归模型的参数w和b，需要定义一个成本函数，让我们来看一下，用logistic回归来训练的成本函数，回忆一下，这是上一张幻灯片的函数，所以你的输出y^=sigmoid(wTx+b)\hat{y}=sigmoid(w^Tx+b)y^=sigmoid(wTx+b)，这里定义为sigmoid(z)。为了让模型通过学习来调整参数，要给一个m个样本的训练集。很自然地，你想通过在训...
复制链接

扫一扫