2.2 Logistic 回归-深度学习-Stanford吴恩达教授

最新推荐文章于 2023-04-05 18:35:11 发布

Zhao-Jichao

最新推荐文章于 2023-04-05 18:35:11 发布

阅读量1w

点赞数 32

分类专栏：深度学习DL 文章标签：机器学习深度学习编程语言

本文链接：https://blog.csdn.net/weixin_36815313/article/details/105309095

版权

深度学习DL 专栏收录该内容

206 篇文章 2691 订阅

订阅专栏

←上一篇	↓↑	下一篇→
2.1 二元分类	回到目录	2.3 Logistic 回归损失函数

Logistic 回归 (Logistic Regression)

在这个视频中，我们会重温逻辑回归学习算法，该算法适用于二分类问题，本节将主要介绍逻辑回归的Hypothesis Function（假设函数）。

对于二元分类问题来讲，给定一个输入特征向量 $X$ ，它可能对应一张图片，你想识别这张图片识别看它是否是一只猫或者不是一只猫的图片，你想要一个算法能够输出预测，你只能称之为 $\hat{y}$ ，也就是你对实际值 $y$ 的估计。更正式地来说，你想让 $\hat{y}$ 表示 $y$ 等于1的一种可能性或者是机会，前提条件是给定了输入特征 $X$ 。换句话来说，如果 $X$ 是我们在上个视频看到的图片，你想让 $\hat{y}$ 来告诉你这是一只猫的图片的机率有多大。在之前的视频中所说的， $X$ 是一个 $n_x$ 维的向量（相当于有 $n_x$ 个特征的特征向量）。我们用来 $w$ 表示逻辑回归的参数，这也是一个 $n_x$ 维向量（因为 $w$ 实际上是特征权重，维度与特征向量相同），参数里面还有 $b$ ，这是一个实数（表示偏差）。所以给出输入 $x$ 以及参数 $w$ 和 $b$ 之后，我们怎样产生输出预测值 $\hat{y}$ ，一件你可以尝试却不可行的事是让 $\hat{y}=w^Tx+b$ 。
在这里插入图片描述
这时候我们得到的是一个关于输入 $x$ 的线性函数，实际上这是你在做线性回归时所用到的，但是这对于二元分类问题来讲不是一个非常好的算法，因为你想让 $\hat{y}$ 表示实际值 $y$ 等于1的机率的话， $\hat{y}$ 应该在0到1之间。这是一个需要解决的问题，因为 $w^Tx+b$ 可能比1要大得多，或者甚至为一个负值。对于你想要的在0和1之间的概率来说它是没有意义的，因此在逻辑回归中，我们的输出 $\hat{y}$ 应该是等于由上面得到的线性函数式子作为自变量的sigmoid函数中，公式如上图最下面所示，将线性函数转换为非线性函数。

下图是sigmoid函数的图像，如果我把水平轴作为 $z$ 轴，那么关于 $z$ 的sigmoid函数是这样的，它是平滑地从0走向1，让我在这里标记纵轴，这是0，曲线与纵轴相交的截距是0.5，这就是关于的sigmoid函数的图像。我们通常都使用 $z$ 来表示 $w^Tx+b$ 的值。

在这里插入图片描述
关于sigmoid函数的公式是这样的， $\sigma(z)=\frac1{1+e^{-z}}$ ,在这里 $z$ 是一个实数，这里要说明一些要注意的事情，如果 $z$ 非常大那么 $e^{-z}$ 将会接近于0，关于 $z$ 的sigmoid函数将会近似等于1除以1加上某个非常接近于0的项，因为 $e$ 的指数如果是个绝对值很大的负数的话，这项将会接近于0，所以如果 $z$ 很大的话那么关于 $z$ 的sigmoid函数会非常接近1。相反地，如果 $z$ 非常小或者说是一个绝对值很大的负数，那么关于 $e^{-z}$ 这项会变成一个很大的数，你可以认为这是1除以1加上一个非常非常大的数，所以这个就接近于0。实际上你看到当 $z$ 变成一个绝对值很大的负数，关于 $z$ 的sigmoid函数就会非常接近于0，因此当你实现逻辑回归时，你的工作就是去让机器学习参数 $w$ 以及 $b$ 这样才使得 $\hat{y}$ 成为对 $y = 1$ 这一情况的概率的一个很好的估计。
在这里插入图片描述
在继续进行下一步之前，介绍一种符号惯例，可以让参数 $w$ 和参数 $b$ 分开。在符号上要注意的一点是当我们对神经网络进行编程时经常会让参数 $w$ 和参数 $b$ 分开，在这里参数 $b$ 对应的是一种偏置。在之前的机器学习课程里，你可能已经见过处理这个问题时的其他符号表示。比如在某些例子里，你定义一个额外的特征称之为 $x_0$ ，并且使它等于1，那么 $X$ 现在就是一个 $n_x$ 加1维的变量，然后你定义 $\hat{y}=\sigma(\theta^Tx)$ 的sigmoid函数。在这个备选的符号惯例里，你有一个参数向量 $\theta_0,\theta_1,\theta_2,\cdots,\theta_{n_x}$ ，这样就 $\theta_0$ 充当了 $b$ ，这是一个实数，而剩下的 $\theta_1$ 直到 $\theta_{n_x}$ 充当了 $w$ ，结果就是当你实现你的神经网络时，有一个比较简单的方法是保持 $b$ 和 $w$ 分开。但是在这节课里我们不会使用任何这类符号惯例，所以不用去担心。现在你已经知道逻辑回归模型是什么样子了，下一步要做的是训练参数 $w$ 和参数 $b$ ，你需要定义一个代价函数，让我们在下节课里对其进行解释。