C1 - week2 - part5 逻辑回归中的梯度下降 Logistic Regression Gradient Descent

kkkobe7

已于 2022-07-13 10:57:45 修改

阅读量291

点赞数

文章标签：逻辑回归深度学习

于 2022-05-07 09:15:01 首次发布

本文链接：https://blog.csdn.net/apple_52071864/article/details/124623419

版权

逻辑回归中的梯度下降 Logistic Regression Gradient Descent

本节我们讨论怎样通过计算偏导数来实现逻辑回归中的梯度下降算法。

1.细节推导

假设样本只有两个特征 $x 1$ 和 $x 2$ ，为了计算 $z$ ，我们需要输入参数 $w 1 、 w 2$ 和 $b$ ，除此之外还有特征值 $x 1$ 和 $x 2$ 。因此 $z$ 的计算公式为 $z = w_1 x_1 + w_2 x_2 + b$ 。

我们回顾一下逻辑回归的公式定义如下：
$\hat{y} = a = \sigma(z) \ 其中 z = w^T x + b，\sigma(z) = \frac{1}{1 + e^{-z}}$
损失函数： $L(\hat{y}^{(i)}, y^{(i)})= -y^{(i)}\log(\hat{y}^{(i)}) - (1 - y^{(i)})\log(1 - \hat{y}^{(i)})$

代价函数： $\frac{1}{m}\sum_i^m L(\hat{y}^{(i)}, y^{(i)})$

假设现在只考虑单个样本的情况，单个样本的代价函数定义如下：
$\ log(a) + (1 - y)\log (1 - a))$
其中a是逻辑回归的输出，y是样本的标签值。根据之前介绍的梯度下降算法，参数 $w$ 和 $b$ 的更新公式表达如下：
$\frac{\partial J(w, b)}{\partial w}, \ b := b - a \frac{\partial J(w, b)}{\partial b}$
根据以上公式，我们绘制出计算图如下

根据计算图，我们从第一层开始反向传播，求出代价函数 $L (a, y)$ 关于 $a$ 的导数，在代码中我们以 $d a$ 表示 $\frac{\mathrm{d}L(a, y)}{\mathrm{d}a}$ 。

通过微积分的知识，我们可以求得 $\frac{\mathrm{d}L(a, y)}{\mathrm{d}a} = -y/a + (1 - y)/(1 - a)$

接下来，我们继续反向传播， $\frac{\mathrm{d}L(a, y)}{\mathrm{d}z} = \frac{\mathrm{d}L}{\mathrm{d}z} = ({\frac{\mathrm{d}L}{\mathrm{d}a}})({\frac{\mathrm{d}a}{\mathrm{d}z}})$ ，其中 $\frac{\mathrm{d}L}{\mathrm{d}a}$ 我们已经求得，下面计算 $\frac{\mathrm{d}a}{\mathrm{d}z}$ 。
$\sigma(z)，\sigma(z) = \frac{1}{1 + e^{-x}}， \frac{\mathrm{d}a}{\mathrm{d}z} = \sigma(z)^{'} = \sigma(z)(1 - \sigma(z))$
因此将两项相乘，得到：
$\mathrm{d}z = \frac{\mathrm{d}L(a, y)}{\mathrm{d}z} = \frac{\mathrm{d}L}{\mathrm{d}z} = ({\frac{\mathrm{d}L}{\mathrm{d}a}})({\frac{\mathrm{d}a}{\mathrm{d}z}}) = (-\frac{y}{a} + \frac{(1 - y)}{(1 - a)}) \times a(1 - a) = a - y$
如果不熟悉微积分也没关系，你只需要知道 $\mathrm{d}z = a- y$ 已经计算好了。

现进行最后一步反向推导，也就是计算代价函数 $J$ 关于参数 $w$ 和 $b$ 的导数。
$\mathrm{d}w_1 = \frac{1}{m}\sum_i^m x_1^{(i)}(a^{(i)} - y^{(i)}) \\ \mathrm{d}w_2 = \frac{1}{m}\sum_i^m x_2^{(i)}(a^{(i)} - y^{(i)}) \\ \mathrm{d}b = \frac{1}{m}\sum_i^m (a^{(i)} - y^{(i)})$
经过上述推导，逻辑回归的梯度下降算法所需要做的就是如下事情：

使用公式 $\mathrm{d}z = (a - y)$ 计算 $\mathrm{d}z$
使用 $\mathrm{d}w_1 = x_1 \cdot \mathrm{d}z$ 计算 $\mathrm{d}w_1$ ，使用 $\mathrm{d}w_2 = x_2 \cdot \mathrm{d}z$ 计算 $\mathrm{d}w_2$ ， $\mathrm{d}b = \mathrm{d}z$ 来计算 $\mathrm{d}b$
然后更新 $\alpha \cdot \mathrm{d}w_1$ ， $\alpha \cdot \mathrm{d}w_2$ ， $\alpha \cdot \mathrm{d}b$

2.如何应用在多个样本

以上，你已经看到了如何计算导数，如何将梯度下降应用在逻辑回归的一个训练样本上。接下来，我们要介绍如何将其应用在m个训练样本上。

首先，让我们回顾一下损失函数 $J (w, b)$ 的定义。
$\frac{1}{m}\sum_{i = 1}^{m} L(a^{(i)}, y^{(i)})$
这是带有求和的全局代价函数，实际上是1到m项损失函数的均值。故我们想要将之前的单个样本应用拓展到m个样本之上，其实我们就是在对各个项进行计算并求其均值。因此，我们可以使用一个for循环来将其实现，伪代码如下。

J = 0; dw1 = 0; dw2 = 0; db = 0;
for i = 1 to m
	z(i) = wx(i) + b;
    a(i) = sigmoid(z(i))
    J += -[y(i)log(a(i)) + (1 - y(i))log(1 - a(i))]
    dz(i) = a(i) - y(i)
    dw1 += x1(i)dz(i)
    dw2 += x2(i)dz(i)
    db += dz(i)
J /= m
dw1 /= m
dw2 /= m
db /= m
w = w - alpha * dw
b = b - alpha - db