deep learning 06. Logistic Regression_deep learning july 李宏毅-CSDN博客

本文链接：https://blog.csdn.net/WUUUSHAO/article/details/88313897

开始的话：
从基础做起，不断学习，坚持不懈，加油。
一位爱生活爱技术来自火星的程序汪

对于 $L o g i s t i c$ $R e g r e s s i o n$ ，这里想详细说明下， $l o s s$ $f u n c t i o n$ 是怎么来的？毕竟了解一个模型最好的方式就是通过损失函数了。

我们知道线性回归的公式为：

$Y = w^Tx + b$

线性回归是做回归的，也就是结果输出是连续的。那怎么做类似于 ${[0,1]}$ 这样的分类任务呢？
机智的人们发现给线性回归加一个 $a c t i v a t i o n$ $f u n c t i o n$ ，然后我们就可以做分类任务了（想吐槽分类为啥叫回归呢？可能是是从回归而来的吧！）
这个函数 $s i g m o i d$ ：

$σ(z)=\frac{1}{1+e^{-z}}$

$s i g m o i d$ 函数的图像为：

import numpy as np
import math
import matplotlib.pyplot as plt

X = np.linspace(-10,10,100)
y = [1 / (1 + math.e**(-x)) for x in X]

plt.plot(X,y)
plt.show()

输出是 $(0, 1)$ 之间的值。
我们把线性回归中的 $Y$ 作为 $z$ 的话， $z = Y = w^Tx + b$ 。
那我们就可以了做分类任务了（大于 $0.5$ 作为类别 $1$ ，小于 $0.5$ 作为类别 $0$ ）。

假设 $s i g m o i d$ 函数 $σ (z)$ ，表示属于正类 $1$ 的概率，那么负类 $0$ ，我们就可以这样定义：
$p(y=1|x;w) =σ(w^Tx+b)= σ(z)$
$p (y = 0 ∣ x; w) = 1 - σ (z)$

这个是不是很熟悉？是的就是伯努利分布（ $B e r n o u l l i$ $d i s t r i b u t i o n$ ）.

所以我们可以合并两个式子，可得到：

$p(y|x) = σ(z)^y(1- σ(z))^{1-y}$

上式将分类为 $0$ 和分类和 $1$ 的概率计算公式合二为一。假设分类器分类足够准确，此时对于一个样本，如果它是属于 $1$ 类，分类器求出的属于 $1$ 类的概率应该尽可能大，即 $p (y = 1 ∣ x)$ 尽可能接近 $1$ ；如果它是 $0$ 类，分类器求出的属于 $0$ 类的概率应该尽可能大，即 $p (y = 0 ∣ x)$ 尽可能接近1。

为了计算方便，我们两边取对数

$l o g p (y ∣ x) = y l o g σ (z) + (1 - y) l o g (1 - σ (z))$

我们的目的是求出 $z=w^Tx + b$ 中的 $w$ 和 $b$ ，使得我们的 $p (y ∣ x)$ 对 $0$ 和 $1$ 类别的可能性最大，而我们的损失函数，是希望取得最大可能性的情况下损失最小，是一个求最小值的过程，所以我们在上式中加一个 $-$ 号，来解决，所以我们的 $l o s s$ $f u n c t i o n$ 就得到了。用极大似然估计（ $M a x i m u m$ $L i k e l i h o o d$ $E s t i m a t e$ ）的方法去极大化似然函数也就是最小化损失函数了。

令： $\widehat{y}=σ(z)=σ(w^Tx + b)$

$L(\widehat{y},y) = -log p(y|x) = - ylog\widehat{y} - (1-y)log(1- \widehat{y})$

自然的我们的 $c o s t$ $f u n c t i o n$ 也就出来了（损失函数是针对一个样本的，成本函数是对所有的样本的）。

$J(w,b)=\frac{1}{m}\sum_{i=1}^{m}L(\widehat{y},y)$

$G r a d i e n t$

最后就是用梯度下降法去求解逻辑回归了的参数 $w$ 和 $b$ 了。

对于上式中的 $l o g$ 我们换成 $l n$ 也是没有任何问题的。
ok，开始我们的推导吧！
第一：先简化下我们的损失函数。

$L(\widehat{y},y) = -log p(y|x) = - ylog\widehat{y} - (1-y)log(1- \widehat{y})$ （1）

$\widehat{y}=σ(z)=σ(w^Tx + b)$

对于偏置 $b$ 我们可以看做 $w_b*x_b$ 其中 $x_b=1$ ， $s o$

$\widehat{y}=σ(z)=σ(w^Tx)$

这个没问题的对吧！

$σ(z)=\frac{1}{1+e^{-z}}$

$\widehat{y}=σ(z)=σ(w^Tx)=\frac{1}{1+e^{-w^Tx}}=\frac{e^{w^Tx}}{1+e^{w^Tx}}$ （2）

上面这个也没问题对吧！

经过 $(2)$ 式的转变，我们可以将 $(1)$ 式变为：

$L(\theta) = - ylog\widehat{y} - (1-y)log(1- \widehat{y})$
$L(\theta) = - (ylog\widehat{y} + (1-y)log(1- \widehat{y}))$

代入 $(2)$ 式

$L(\theta) = - (ylog\frac{e^{w^Tx}}{1+e^{w^Tx}} + (1-y)log(1- \frac{e^{w^Tx}}{1+e^{w^Tx}}))$

然后把对数 $l o g$ 展开（也可写为 $l n$ ，后面展开方便）

$L(\theta) = - ([ylog e^{w^Tx} - log({1+e^{w^Tx}}) ]+ (1-y)(-log(1+e^{w^Tx}))$

$L(\theta) = - (ylog e^{w^Tx} - log({1+e^{w^Tx}})$

$l o g$ -> $l n$

$L(\theta) = - (yw^Tx - ln({1+e^{w^Tx}})$

ok！到目前为止简化完了。

开始求偏导：

$yw^Tx$ 对 $w$ 求偏导则为 $y x$
$ln({1+e^{w^Tx}})$ 求偏导，就要掌握复合函数的求偏导了。
$l n (g (x))$ 偏导为 $\frac{1}{g{x}}$ 乘以 $g (x)$ 的偏导。
所以就能得到： $x\frac{e^{w^Tx}}{1+e^{w^Tx}}$
所以最终为：
$\frac{\delta L(\theta)}{\delta w} =-(yx-x\frac{e^{w^Tx}}{1+e^{w^Tx}})$ $(3)$