逻辑回归简介

tigerhuli

已于 2022-03-15 11:04:56 修改

阅读量2.1k

点赞数 1

分类专栏：机器学习文章标签：机器学习

于 2022-03-15 10:43:23 首次发布

本文链接：https://blog.csdn.net/m0_37518259/article/details/121496270

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

逻辑回归模型(Logistic regression，LR)，又称对数几率模型。由于逻辑回归模型简单，可解释强，易实现，广泛应用于机器学习、深度学习、推荐系统、广告预估、智能营销、金融风控、社会学、生物学、经济学等领域^[1]。

算法说明

LR假设

逻辑回归需要满足两个假设条件：

数据服从伯努利分布。
样本的概率是sigmoid函数。

LR说明

逻辑回归本质上是分类学习。逻辑回归中的回归是指将输入参数映射为0-1到之间的实数，数据表示如下：
$\frac{1}{{1 + {e^{ - {{\rm{w}}^T}{\rm{x}}}}}} \tag{7}$
通过比较发现，公式(7)就是公式(2)与公式(6)的结合。
根据使用使用场景不同， $y$ 的取值可能会有些微的变化。如在点击率（CTR，click through rate）预测中，倾向于 $\in \{ 0,1\}$ ；在正负样本分类中，倾向于 $\in \{ -1,1\}$ 。不过这两种差异并不会影响逻辑回归训练及预测的推导流程，所以本文参考机器学习课程^[8]仅讨论 $\in \{ 0,1\}$ 的情况。
假设 $y = 1$ 表示正样本， $y = 0$ 表示负样本，则正样本的逻辑回归概率公式为：
$1|{\rm{x}};{\rm{w}}) = \sigma (x) = \frac{1}{{1 + {e^{ - {{\rm{W}}^T}{\rm{x}}}}}}{\rm{ = }}\frac{{{e^{{{\rm{W}}^T}{\rm{x}}}}}}{{1{\rm{ + }}{e^{{{\rm{W}}^T}{\rm{x}}}}}} \tag{8}$
负样本的概率公式为：
$0|{\rm{x}};{\rm{w}}) = 1{\rm{ - }}\sigma (x) = 1{\rm{ - }}\frac{{{e^{{{\rm{W}}^T}{\rm{x}}}}}}{{1{\rm{ + }}{e^{{{\rm{W}}^T}{\rm{x}}}}}}{\rm{ = }}\frac{1}{{1{\rm{ + }}{e^{{{\rm{W}}^T}{\rm{x}}}}}} \tag{9}$
比较正负样本的概率公式，可以统一为：
$P(y|{\rm{x}};{\rm{w}}) = \sigma {({\rm{x}})^y}{(1 - \sigma ({\rm{x}}))^{1 - y}} \tag{10}$
因为正负样本的概率和1，所以能够通过正样本的概率来反应逻辑回归的预测结果，对此逻辑回归有如下假设：

如果 $1|{\rm{x}};{\rm{w}}) \ge 0.5$ ，则属于正样本；
如果 $1|{\rm{x}};{\rm{w}}) < 0.5$ ，则属于负样本。

对于上述假设，使用交叉熵作为损失函数，其数学表达为：
$L({\rm{w}}) = - \frac{1}{m}\sum\limits_{i = 1}^m {[{y^{(i)}}\log \sigma ({{\rm{x}}^{(i)}}) + (1 - {y^{(i)}})\log (1 - \sigma ({{\rm{x}}^{(i)}}))]} \tag{11}$

训练模型的过程就是不断降低损失函数值得过程，而降低这些损失函数值的方法多种多样，使用梯度下降法进行训练得到模型参数的迭代公式为：
$\frac{{\partial L({\rm{w}})}}{{\partial {w_j}}} = - \sum\limits_{i = 1}^m {({y^{(i)}} - \delta ({{\rm{x}}^{(i)}}))x_j^{(i)}} \tag{12}$

关于梯度下降的公式推导可以参考附录梯度下降迭代公式推导。

总结

优缺点

逻辑回归的优缺点是：

模型简单，解释性好。
训练快，资源消耗小，易调整。

缺点是：

准确率不高。
不适合数据不平衡的问题，因为区分度不好。
不适合大规模数据集，因为容易过拟合。

softmax

逻辑回归的使用场所是二分类问题，而softmax则是逻辑回归的泛化，用于处理多分类问题^[12]。
假设有 $K$ 个类别需要进行分类，则softmax规定某个类别的可能性为：
$\delta {({\rm{z}})_i} = \frac{{{e^{{{\rm{z}}_i}}}}}{{\sum\limits_{j = 1}^K {{e^{{{\rm{z}}_j}}}} }} \tag{13}$
其中 $\ldots ,K,{\rm{z}} = ({z_1}, \ldots ,{z_K}) \in {R^K}$ 。从公式(13)也可以看到softmax的两个关键点：1 soft就是指每个类别都会计算一个概率，而不是非0即1；2 max指模型最终指定的类别是概率最大的类别。

附录

梯度下降迭代公式推导 {#addition-1}

待优化的目标函数如下：
$L({\rm{w}}) = - {1 \over m}\sum\limits_{i = 1}^m {[{y^{(i)}}\log \sigma ({{\rm{x}}^{(i)}}) + (1 - {y^{(i)}})\log (1 - \sigma ({{\rm{x}}^{(i)}}))]}$

为了简化推导表示，先去掉求和项及上标：
$l({\rm{w}}) = y\log \delta ({\rm{x}}) + (1 - y)\log (1 - \delta ({\rm{x}}))$

对上式进行求导：
$l({\rm{w}})' = (y\log \delta ({\rm{x}}))' + ((1 - y)\log (1 - \delta ({\rm{x}})))'$

$l({\rm{w}})' = y\frac{{\delta ({\rm{x}})'}}{{\delta ({\rm{x}})}} + (1 - y)\frac{{(1 - \delta ({\rm{x}}))'}}{{1 - \delta ({\rm{x}})}}$

现在的关键就是$\delta ({\rm{x}}) $的求导：
$\delta ({\rm{x}}) = \frac{1}{{1{\rm{ + }}{e^{{\rm{ - }}{{\rm{W}}^T}{\rm{x}}}}}}$

因为：
$(\frac{u}{v})' = \frac{{u'v - uv'}}{{{v^2}}}$

所以：
$\delta ({\rm{x}})' = (\frac{1}{{1{\rm{ + }}{e^{{\rm{ - }}{{\rm{W}}^T}{\rm{x}}}}}})' = \frac{{1' \times {e^{{\rm{ - }}{{\rm{W}}^T}{\rm{x}}}} - 1 \times ({e^{{\rm{ - }}{{\rm{W}}^T}{\rm{x}}}})'}}{{{{(1{\rm{ + }}{e^{{\rm{ - }}{{\rm{W}}^T}{\rm{x}}}})}^2}}} = \frac{{0 - {e^{{\rm{ - }}{{\rm{W}}^T}{\rm{x}}}}( - {{\rm{W}}^T}{\rm{x}})'}}{{{{(1{\rm{ + }}{e^{{\rm{ - }}{{\rm{W}}^T}{\rm{x}}}})}^2}}} = \frac{{{e^{{\rm{ - }}{{\rm{W}}^T}{\rm{x}}}}({{\rm{W}}^T}{\rm{x}})'}}{{{{(1{\rm{ + }}{e^{{\rm{ - }}{{\rm{W}}^T}{\rm{x}}}})}^2}}}$

$\delta ({\rm{x}})'{\rm{ = }}\frac{1}{{1{\rm{ + }}{e^{{\rm{ - }}{{\rm{W}}^T}{\rm{x}}}}}} \times \frac{{{e^{{\rm{ - }}{{\rm{W}}^T}{\rm{x}}}}}}{{1{\rm{ + }}{e^{{\rm{ - }}{{\rm{W}}^T}{\rm{x}}}}}} \times ({{\rm{W}}^T}{\rm{x}})'$

因为：
$\frac{{{e^{{\rm{ - }}{{\rm{W}}^T}{\rm{x}}}}}}{{1{\rm{ + }}{e^{{\rm{ - }}{{\rm{W}}^T}{\rm{x}}}}}} = 1 - \frac{1}{{1{\rm{ + }}{e^{{\rm{ - }}{{\rm{W}}^T}{\rm{x}}}}}}$

所以：
$\delta ({\rm{x}})'{\rm{ = }}\frac{1}{{1{\rm{ + }}{e^{{\rm{ - }}{{\rm{W}}^T}{\rm{x}}}}}} \times (1 - \frac{1}{{1{\rm{ + }}{e^{{\rm{ - }}{{\rm{W}}^T}{\rm{x}}}}}}) \times ({{\rm{W}}^T}{\rm{x}})'$

$\delta ({\rm{x}})' = \delta ({\rm{x}})(1 - \delta ({\rm{x}}))({{\rm{W}}^T}{\rm{x}})'$

同理：
$\delta ({\rm{x}}))' = - \delta ({\rm{x}})(1 - \delta ({\rm{x}}))({{\rm{W}}^T}{\rm{x}})'$

返回 $l({\rm{w}})'$ 的求解过程：
$l({\rm{w}})' = y\frac{{\delta ({\rm{x}})'}}{{\delta ({\rm{x}})}} + (1 - y)\frac{{(1 - \delta ({\rm{x}}))'}}{{1 - \delta ({\rm{x}})}}{\rm{ = }}y\frac{{\delta ({\rm{x}})(1 - \delta ({\rm{x}}))({{\rm{W}}^T}{\rm{x}})'}}{{\delta ({\rm{x}})}}{\rm{ + }}(1 - y)\frac{{ - \delta ({\rm{x}})(1 - \delta ({\rm{x}}))({{\rm{W}}^T}{\rm{x}})'}}{{1 - \delta ({\rm{x}})}}$

$l({\rm{w}})' = y(1 - \delta ({\rm{x}}))({{\rm{W}}^T}{\rm{x}})'\frac{{\delta ({\rm{x}})}}{{\delta ({\rm{x}})}} - (1 - y)\delta ({\rm{x}})({{\rm{W}}^T}{\rm{x}})'\frac{{(1 - \delta ({\rm{x}}))}}{{1 - \delta ({\rm{x}})}}$

$l({\rm{w}})' = y(1 - \delta ({\rm{x}}))({{\rm{W}}^T}{\rm{x}})' - (1 - y)\delta ({\rm{x}})({{\rm{W}}^T}{\rm{x}})'$

$l({\rm{w}})' = y({{\rm{W}}^T}{\rm{x}})' - y\delta ({\rm{x}})({{\rm{W}}^T}{\rm{x}})' - \delta ({\rm{x}})({{\rm{W}}^T}{\rm{x}})' + y\delta ({\rm{x}})({{\rm{W}}^T}{\rm{x}})'$

$l({\rm{w}})' = y({{\rm{W}}^T}{\rm{x}})' - \delta ({\rm{x}})({{\rm{W}}^T}{\rm{x}})' + y\delta ({\rm{x}})({{\rm{W}}^T}{\rm{x}})' - y\delta ({\rm{x}})({{\rm{W}}^T}{\rm{x}})'$

$l({\rm{w}})' = (y - \delta ({\rm{x}}))({{\rm{W}}^T}{\rm{x}})'$

将 $l({\rm{w}})'$ 带入 $L({\rm{w}})'$ ：
$L{({\rm{w}})^\prime } = - \sum\limits_{i = 1}^m {(y - \delta ({\rm{x}}))({{\rm{W}}^T}{\rm{x}})'}$

因为：
${{\rm{W}}^T}{\rm{x}} = {w_0} + {w_1}{x_1} + {w_2}{x_2} + \cdots + {w_n}{x_n}$

$\frac{{\partial z}}{{\partial {w_j}}} = {x_j}$

所以：
${{\partial L({\rm{w}})} \over {\partial {w_j}}} = - \sum\limits_{i = 1}^m {(y - \delta ({\rm{x}})){{\partial z} \over {\partial {w_j}}}} = - \sum\limits_{i = 1}^m {(y - \delta ({\rm{x}})){x_j}}$

最后补全标识某个样本的上标：
${{\partial L({\rm{w}})} \over {\partial {w_j}}} = - \sum\limits_{i = 1}^m {({y^{(i)}} - \delta ({{\rm{x}}^{(i)}}))x_j^{(i)}}$

Reference

[1] 知乎 LR逻辑回归模型的原理、公式推导、Python实现和应用
 [2] 知乎如何理解似然函数?
[3] wiki 似然函数
 [4] wiki 逻辑函数
 [5] wiki Pierre François Verhulst
[6] wiki 回归分析
 [7] wiki 伯努利分布
 [8] coursera 机器学习
 [9] 未知网站 Gradient Descent: An Introduction to 1 of Machine Learning’s Most Popular Algorithms
[10] 未知网站 Logistic回归-代价函数求导过程 | 内含数学相关基础
 [11] 知乎交叉熵的推导
 [12] wiki Softmax function

tigerhuli

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
逻辑回归简介

逻辑回归模型(Logistic regression，LR)，又称对数几率模型。由于逻辑回归模型简单，可解释强，易实现，广泛应用于机器学习、深度学习、推荐系统、广告预估、智能营销、金融风控、社会学、生物学、经济学等领域[1]。基础逻辑函数逻辑回归中的逻辑，就是指逻辑函数。至于为什么叫做逻辑函数，其提出者韦吕勒并没有给出明确的解释，后人推断这个词的来源是希腊语λογῐστῐκός（logistikos），意为“算术”或“实用数学”，以与对数曲线（logarithmic）区分[4]。逻辑回归的函数如下所
复制链接

扫一扫