Logistic 回归损失函数推导及参数更新

最新推荐文章于 2024-07-26 22:19:31 发布

Turtlelin007

最新推荐文章于 2024-07-26 22:19:31 发布

阅读量2.4k

点赞数 6

分类专栏： MachineLearning

本文链接：https://blog.csdn.net/weixin_37142859/article/details/95622601

版权

MachineLearning 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Logistic 回归损失函数推导及参数更新

Logistic 回归属于广义的线性模型，联系函数为sigmoid函数

广义的线性模型为 $g(\boldsymbol{w^Tx} + b)$ ,函数 $g (.)$ 起到了将线性回归模型预测值和真实标记联系起来的作用，称为“联系函数”（link function）。使得 $g^{-1}(y)$ 与 $\boldsymbol{w^Tx}+b$ 形成线性关系。

模型：
$\boldsymbol{w^Tx}+b\\ y = \frac{1}{1+e^{-z}}$

损失函数推导：
采用极大似然估计来推导损失函数。
先写出正负样本的概率预测值：
$\begin{aligned} p(y^*=1|\boldsymbol{x};\boldsymbol{w}, b) &= y\\ p(y^*=0|\boldsymbol{x};\boldsymbol{w}, b) &= 1-y\\ \end{aligned}$
统一两个式子得到：
$p(y^*|\boldsymbol{x};\boldsymbol{w}, b) = y^{y^*}(1-y)^{1-y^*}$
假设样本独立且同分布，要让对每个样本的概率值更接近其所属分类，列出极大似然函数：
$L(\boldsymbol{w};b) = \prod_{i=1}^{m}p(y_i^*|\boldsymbol{x_i}, \boldsymbol{w}, b) = \prod_{i=1}^{m}y_i^{y_i^*}(1-y_i)^{1-y_i^*}$
取对数：
$l(\boldsymbol{w}, b) = \sum_{i=1}^m [y_i^*log(y_i) + (1-y^*)log(1-y_i)])$
损失函数一般求最小值，因此
$J(\boldsymbol{w}, b) = -\frac{1}{m}\sum_{i=1}^m \left[y_i^*log(y_i) + (1-y^*)log(1-y_i)\right]$
正好是交叉熵损失函数

梯度推导

计算图

$\frac{\partial J}{\partial \boldsymbol{w_j}} = \sum_{i=1}^m \frac{\partial J}{\partial y_i} \frac{\partial y_i}{\partial z_i} \frac{\partial z_i}{\partial \boldsymbol{w_j}}$

依次计算每一项

$J(\boldsymbol{w}, b) = -\frac{1}{m}\sum_{i=1}^m \left[y_i^*log(y_i) + (1-y^*)log(1-y_i)\right]$

$\begin{aligned} \frac{\partial J}{\partial y_i} &= -\frac{1}{m}(\frac{y_i^*}{y_i}-\frac{1-y_i^*}{1-y_i}) \\ &=-\frac{1}{m}(\frac{y_i^*-y_i}{y_i(1-y_i)}) \end{aligned}$

$\frac{1}{1+e^{-z}}$

$\begin{aligned} \frac{\partial y_i}{\partial z_i} &= \frac{e^z(1+e^z)-e^ze^z}{(1+e^z)^2} \\ &= y_i(1-y_i) \end{aligned}$

$\boldsymbol{w^Tx}+b$

$\frac{\partial z_i}{\partial w_j} = x_j$
将三个导数计算结果代入上式，得到
$\begin{aligned} \frac{\partial J}{\partial \boldsymbol{w_j}} &= \sum_{i=1}^{m} -\frac{1}{m}(\frac{y_i^*-y_i}{y_i(1-y_i)}) \cdot y_i(1-y_i) \cdot x_j \\ &=\frac{1}{m}\sum_{i=1}^{m}(y_i-y_i^*)x_j \end{aligned}$

参数更新公式

$\begin{aligned} \boldsymbol{w_j} &= \boldsymbol{w_j} - \alpha \frac{\partial J}{\partial \boldsymbol{w_j}} \\ &= \boldsymbol{w_j} - \alpha \frac{1}{m}\sum_{i=1}^{m}(y_i-y_i^*)x_j \end{aligned}$