【机器学习】逻辑回归——数学原理推导

最新推荐文章于 2023-05-29 14:41:30 发布

goldlone

最新推荐文章于 2023-05-29 14:41:30 发布

阅读量1.3k

点赞数

分类专栏：机器学习文章标签：逻辑回归

本文链接：https://blog.csdn.net/goldlone/article/details/83113132

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

以逻辑回归的二分类模型作出如下推导：

1. 定义
在线性回归上套一层sigmoid函数
$\frac{1}{1 + e^{-z}}$

$h_\theta(x) = g(\theta^Tx) = \frac{1}{1 + e^{-\theta^Tx}} = \frac{1}{1 + e^{-(\theta_0 + \theta_1x_1 + \theta_2x_2 + ... + \theta_nx_n)}}$

注： $x_0$ 是为了便于计算，人为增添的一列，值全为1

这里对函数 $g (z)$ 进行下求导运算，后面推导会用到。

$(\frac{1}{1 + e^{-z}})'$

$\quad\quad=\frac{e^{-z} +1-1}{{(1+e^{-z})}^2}$

$\quad\quad=\frac{1}{1+e^{-z}} - \frac{1}{{(1+e^{-z})}^2}$

$\quad\quad=g(z)(1-g(z))$

2. 计算概率
假定：

$p(y=1|x;\theta) = h_\theta(x)$
$p(y=0|x;\theta) = 1 - h_\theta(x)$

组合上述两式：

$p(y|x\theta) = h_\theta(x)^{y_i}(1-h_\theta(x))^{1-y_i}$

$y$ 是标签，正类标记1，负类标记0

3. 极大似然估计

$L(\theta) = \prod_{i=1}^{m}{(h_\theta(x_i)^{y_i}(1-h_\theta(x_i))^{1-y_i}))}$

取对数，转累加

$l(\theta) = \ln L(\theta)$

$\quad =\sum_{i=1}^{m}{\ln(h_\theta(x_i)^{y_i}(1-h_\theta(x_i))^{1-y_i}))}$

$\quad =\sum_{i=1}^{m}{[y_i \ln h_\theta(x_i) + (1-y_i)\ln(1-h_\theta(x_i))]}$

说明：

当y=1时，我们期望 $p(y=1|x;\theta)$ 的值越大，即预测结果为正类的概率越大，误差就越小
当y=0时，我们期望 $p(y=0|x;\theta)$ 的值越大，即预测结果为负类的概率越大，误差也越小

因此我们的目标是求取似然函数 $l(\theta)$ 的最大值。

4. 损失函数

对似然函数求最大值需要使用梯度上升的方式，这里我们引入 $J(\theta) = -l(\theta)$ ，转化为使用梯度下降的方式计算损失函数的最小值。

5. 梯度下降

$\frac{\partial}{\partial\theta}J(\theta_j) = -\frac{\partial}{\partial\theta}\sum_{i=1}^{m}{[y_i \ln h_\theta(x_i) + (1-y_i)\ln(1-h_\theta(x_i))]}$

$\quad\quad\quad = -\sum_{i=1}^{m}{[y_i\frac{1}{h_\theta(x_i)}\frac{\partial}{\partial \theta} h_\theta(x_i)-(1-y_i)\frac{1}{1-h_\theta(x_i)}\frac{\partial}{\partial \theta} h_\theta(x_i)]}$

$\quad\quad\quad = -\sum_{i=1}^{m}{[y_i\frac{1}{h_\theta(x_i)} - (1-y_i)\frac{1}{1-h_\theta(x_i)}]}\frac{\partial}{\partial \theta} h_\theta(x_i)$

$\quad\quad\quad = -\sum_{i=1}^{m}{[y_i\frac{1}{g(\theta^Tx)} - (1-y_i)\frac{1}{1-g(\theta^Tx)}]}\frac{\partial}{\partial \theta} g(\theta^Tx)$

$\quad\quad\quad = -\sum_{i=1}^{m}{[y_i\frac{1}{g(\theta^Tx)} - (1-y_i)\frac{1}{1-g(\theta^Tx)}]}g(\theta^Tx)(1-g(\theta^Tx))\frac{\partial}{\partial \theta}\theta^Tx$