逻辑回归

最新推荐文章于 2024-07-06 19:05:11 发布

zhaohui24

最新推荐文章于 2024-07-06 19:05:11 发布

阅读量164

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_31948131/article/details/116668702

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

文章目录

1. 逻辑回归公式
2. 梯度下降求解事例
3. 逻辑回归的正则化
4. 逻辑回归实现多分类
4. 代码案例

1. 逻辑回归公式

假设函数 (hypotheses function)： $\hat y=h_{\theta}(x)=g(\theta^Tx)=\frac{1}{1+e^{-\theta^Tx}}$ ，其中： $g(z)=\frac{1}{1+e^{-z}}$ 为sigmoid函数

交叉熵损失函数 (loss function)（单个样本）： $L(\hat{y}, y)=-y \log \hat{y}-(1-y) \log (1-\hat{y})$

$y$ ：表示样本的 label，正类为1，负类为0
$\hat{y}$ ：表示样本预测为正的概率， $1-\hat{y}$ ：表示样本预测为负的概率，损失函数-参考链接

代价函数 (cost function)：
$\begin{aligned} J(\theta) &=\frac{1}{m} \sum_{i=1}^{m} L\left(\hat{y}^{(i)}, y^{(i)}\right) \\ &=\frac{1}{m} \sum_{i=1}^{m}\left[-y^{(i)} \log \hat{y}^{(i)}-\left(1-y^{(i)}\right) \log \left(1-\hat{y}^{(i)}\right)\right] \\ &=\frac{1}{m} \sum_{i=1}^{m}\left[-y^{(i)} \log \frac{1}{1+e^{-\theta^Tx^{(i)}}}-\left(1-y^{(i)}\right) \log \left(1-\frac{1}{1+e^{-\theta^Tx^{(i)}}}\right)\right] \end{aligned}$

使用梯度下降法 线性回归中类似-链接，使代价函数损失值最小

$\begin{aligned} \frac{\partial}{\partial \theta_{j}} J(\theta) &=\frac{\partial}{\partial \theta_{j}} \frac{1}{m} \sum_{i=1}^{m}\left[-y^{(i)} \log \frac{1}{1+e^{-\theta^{T} x^{(i)}}}-\left(1-y^{(i)}\right) \log \left(1-\frac{1}{\left.1+e^{-\theta^{T} x^{(i)}}\right)}\right]\right. \\ &=\frac{\partial}{\partial \theta_{j}} \frac{1}{m} \sum_{i=1}^{m}\left[y^{(i)} \log \left(1+e^{-\theta^{T} x^{(i)}}\right)+\left(1-y^{(i)}\right) \log \left(1+e^{\theta^{T} x^{(i)}}\right)\right] \\ &=\frac{1}{m} \sum_{i=1}^{m}\left[y^{(i)} \frac{-x_{j}^{(i)} e^{-\theta^{T} x^{(i)}}}{1+e^{-\theta^{T} x^{(i)}}}+\left(1-y^{(i)}\right) \frac{x_{j}^{(i)} e^{\theta^{T} x^{(i)}}}{1+e^{\theta^{T} x^{(i)}}}\right] \\ &=\frac{1}{m} \sum_{i=1}^{m}\left[y^{(i)} \frac{-x_{j}^{(i)}}{1+e^{\theta^{T} x^{(i)}}}+\left(1-y^{(i)}\right) \frac{x_{j}^{(i)} e^{\theta^{T} x^{(i)}}}{1+e^{\theta^{T} x^{(i)}}}\right] \\ &=\frac{1}{m} \sum_{i=1}^{m}\left[\frac{-x_{j}^{(i)} y^{(i)}+x_{j}^{(i)} e^{\theta^{T} x^{(i)}}-y^{(i)} x_{j}^{(i)} e^{\theta^{T} x^{(i)}}}{1+e^{\theta^{T} x^{(i)}}}\right] \\ &=\frac{1}{m} \sum_{i=1}^{m}\left[\frac{-y^{(i)}\left(1+e^{\theta^{T} x^{(i)}}\right)+e^{\theta^{T} x^{(i)}}}{1+e^{\theta^{T} x^{(i)}}} x_{j}^{(i)}\right]=\frac{1}{m} \sum_{i=1}^{m}\left[\left(-y^{(i)}+\frac{e^{\theta^{T} x^{(i)}}}{1+e^{\theta^{T} x^{(i)}}}\right) x_{j}^{(i)}\right] \\ &=\frac{1}{m} \sum_{i=1}^{m}\left[\left(-y^{(i)}+\frac{1}{1+e^{-\theta^{T} x^{(i)}}}\right) x_{j}^{(i)}\right] = \frac{1}{m} \sum_{i=1}^{m}\left[\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right) x_{j}^{(i)}\right] \end{aligned}$

补充， $h_{\theta}\left(x^{(i)}\right)=\frac{1}{1+e^{-\theta^{T} x^{(i)}}}$ ，与线性回归不一样
迭代公式： $\theta_{j}:=\theta_{j}-\alpha \frac{1}{m} \sum_{i=1}^{m}[(h_{\theta}(x^{(i)})-y^{(i)})x_j^{(i)}]$ ，与线性回归一致，乘了一个 $- 1$

2. 梯度下降求解事例

根据上面逻辑回归梯度更新公式 $\theta_{j}:=\theta_{j}-\alpha \frac{1}{m} \sum_{i=1}^{m}[(h_{\theta}(x^{(i)})-y^{(i)})x_j^{(i)}]$ ，引入实际范例中计算。表格数据中有两个特征量 $x_1, x_2$ 和一个输出值 $y$ ，根据假设函数公式，引入特征量 $x_0$ ，其值均为1。则特征数量 $n = 3$ 。表格中有2行数据，则数据量 $m = 2$ 。

引入特征量 $x_0$	房子面积 $x_1$	房子朝向 $x_2$	分类 $y$
1	200	1	1
1	120	2	0

假设函数 $h_{\theta}\left(x^{(i)}\right)=\frac{1}{1+e^{-\theta^{T} x^{(i)}}}=\frac{1}{1+e^{-(\theta_0x_0^{(i)}+\theta_{1} x_{1}^{(i)}+\theta_{2} x_{2}^{(i)})}}$ ，随机给定 $\theta_{0}=0.01, \quad\theta_{1}=0.03,\quad \theta_{2}=0.06$ ，指定学习率 $\alpha=0.01$ ，进行迭代，更新 $\theta$ 。

$\theta_0 = \theta_0-\alpha\times[(\frac{1}{1+e^{-(\theta_0x_0^{(1)}+\theta_{1} x_1^{(1)}+\theta_{2} x_2^{(1)})}}-y^{(1)})\times x_0^{(1)} + (\frac{1}{1+e^{-(\theta_0x_0^{(2)}+\theta_{1} x_1^{(2)}+\theta_{2} x_2^{(2)})}}-y^{(2)})\times x_0^{(2)}]$

$\theta_1,\theta_2$ 更新过程与 $\theta_0$ 一致，具体过程可参考线性回归中参数更新-链接

3. 逻辑回归的正则化

L2范数正则化 解决过拟合
$J(\theta)=\frac{1}{m} \sum_{i=1}^{m}\left[-y^{(i)} \log \frac{1}{1+e^{-\theta^{T} x^{(i)}}}-\left(1-y^{(i)}\right) \log \left(1-\frac{1}{ \left.1+e^{-\theta^{T} x^{(i)}}\right)}\right)\right]+\frac{\lambda}{2 \mathrm{~m}}\|\theta\|_{2}^{2}$