机器学习之逻辑回归（算法详细推导）

Diana003

已于 2022-01-23 21:47:11 修改

阅读量568

点赞数 1

分类专栏：机器学习理论推导文章标签：机器学习逻辑回归人工智能

于 2022-01-22 14:13:51 首次发布

本文链接：https://blog.csdn.net/Diana003/article/details/122636766

版权

机器学习理论推导专栏收录该内容

9 篇文章 0 订阅

订阅专栏

逻辑回归
- [Logist 函数](#Logist 函数)
- 目标函数
- [最大似然求解Loss Function](#最大似然求解Loss Function)
- 运用梯度下降得到参数更新递推公式
- Logistic回归与梯度上升法
- 逻辑回归解决多分类问题

逻辑回归

标准逻辑回归是结果为0，1的二分类算法。目标是求 $P(y_i=1\|x_i,w)$ ，若其大于 $\frac{1}{2}$ ，则预测分类结果为1，否则为0。

Logist 函数

令 $p(x_i) = P(y_i=1\|x_i,w)$ ，构建 $p(x_i)$ 与 $w^Tx_i$ 之间的关系式。

首先提出以下猜想

$p(x_i)=w^Tx_i？~~~~~~~~~~~\log p(x_i) = w^Tx_i$ ？

由于 $0\leq p(x)\leq 1$ , $w^Tx_i$ 是无界的。于是我们说以上等式都是不成立的，因此又有了以下猜想

$\log \frac{p(x_i)}{1-p(x_i)} = w^Tx_i$

可以证明 $\text{odd} = \frac{p(x_i)}{1-p(x_i)}$ 的范围是[0, $\inf$ ]，则等式成立。我们称其为logist函数。

则可以化简得到

$p(x_i) = \frac{1}{1+e^{-w^Tx_i}}$

可以类比Sigmoid函数发现， $p(x_i)$ 与Sigmoid函数一致。因此我们设 $p(x_i) = g(w^Tx_i)$ 。

目标函数

假设样本独立且同分布，则有最大似然估计

$max_w ~~~~\prod_{i=1}^n P(y_i|x_i,w)$

其中

$P(y_i|x_i,w) = P(y_i=1|x_i,w)^{y_i}P(y_i=0|x_i,w)^{1-y_i}$

最大似然求解Loss Function

令

$\prod_{i=1}^n P(y_i|x_i,w)$

$\prod_{i=1}^n g(w^Tx_i)^{y_i}(1-g(w^Tx_i))^{1-y_i}$

$~~~~~~~~~~~~~~~\log J = \sum_{i=1}^my_i\ln (g(w^Tx_i))+(1-y_i)\ln (1-g(w^Tx_i))$

$\text{Loss} = - \log J$

目标函数为

$min_w - \log J(w)$

其中 $g$ 为sigmoid函数

Q1: 为什么要求最大对数似然估计而不是最大似然估计：

首先损失函数的本质是对错误预测进行较大的惩罚，也就是损失函数值会变大，而对正确预测不进行惩罚。对于这点-log在定义域为[0,1]时正好符合。
另外，由于取完对数之后，方便我们之后的求导。因为如果直接利用似然函数，会造成两个问题：(1) 对于后续求导不方便, (2) 会导致下溢出

Q2: LR损失函数与最大对数似然函数的关系

LR损失函数是负的最大对数似然函数。由于最大对数似然函数体现出，当真实值和估计值相近的时候，最大对数似然函数很大；相反，则最大对数似然函数接近于0。而损失函数是为了惩罚错误估计，因此通过取相反数正好能够很好的解决这个问题。

Q3: LR的损失函数为什么不是平方损失函数（最小二乘）

虽然由于LR是一种广义的线性回归模型，然而若将LR看作一层的简单的神经网络，其中输出层的激活函数是Sigmoid，我们可以发现，若使用最小二乘作为损失函数，在进行反向传播的时候，由于平方损失函数对于Sigmoid函数求导得到的无法保证是凸函数，因此在优化的过程中，得到的解可能是局部最优，而不是全剧最优解。

运用梯度下降得到参数更新递推公式

对Loss函数求导

$\frac{\partial{-\log J}}{\partial{w}}=-\sum_{i=1}^n[y_i\frac{\frac{\partial{g(w^Tx_i)}}{\partial{w}}}{g(w^Tx_i)}+(1-y_i)\frac{\frac{-\partial{ g(w^Tx_i)}}{\partial{w}}}{1-g(w^Tx_i)}]$