l2的最优回归_【机器学习】逻辑回归（非常详细）

最新推荐文章于 2023-09-18 11:05:07 发布

han Lee

最新推荐文章于 2023-09-18 11:05:07 发布

阅读量2.8k

点赞数

文章标签： l2的最优回归

本文链接：https://blog.csdn.net/weixin_42360846/article/details/113395051

版权

逻辑回归是一种广泛应用于分类问题的模型，尤其在工业界受到青睐。它通过Sigmoid函数将线性回归的输出映射到0-1区间，形成概率预测。本文深入探讨了Logistic分布、逻辑回归模型、代价函数、正则化（L1与L2）、求解方法（梯度下降与牛顿法）以及并行化策略。同时，与线性回归、最大熵模型、SVM和朴素贝叶斯进行了对比，强调了逻辑回归的适用场景和优势。

摘要由CSDN通过智能技术生成

逻辑回归是一个非常经典的算法，其中也包含了非常多的细节，曾看到一句话：如果面试官问你熟悉哪个机器学习模型，可以说 SVM，但千万别说 LR，因为细节真的太多了。

秉持着精益求精的工匠精神不断对笔记进行修改和改进，本着开源精神帮助大家一起学习。欢迎大家在阅读的过程中提出修改建议，我会非常感激。如果文章有帮助的话，希望能点个赞。

1. 模型介绍

Logistic Regression 虽然被称为回归，但其实际上是分类模型，并常用于二分类。Logistic Regression 因其简单、可并行化、可解释强深受工业界喜爱。

Logistic 回归的本质是：假设数据服从这个分布，然后使用极大似然估计做参数的估计。

1.1 Logistic 分布

Logistic 分布是一种连续型的概率分布，其分布函数和密度函数分别为：

$equation?tex=F%28x%29+%3D+P%28X+%5Cleq+x%29%3D%5Cfrac%7B1%7D%7B1%2Be%5E%7B-%28x-%5Cmu%29%2F%5Cgamma%7D%7D+%5C%5C+f%28x%29+%3D+F%5E%7B%27%7D%28X+%5Cleq+x%29%3D%5Cfrac%7Be%5E%7B-%28x-%5Cmu%29%2F%5Cgamma%7D%7D%7B%5Cgamma%281%2Be%5E%7B-%28x-%5Cmu%29%2F%5Cgamma%7D%29%5E%7B2%7D%7D+%5C%5C$

其中，

equation?tex=%5Cmu 表示位置参数，

equation?tex=%5Cgamma%3E0 为形状参数。我们可以看下其图像特征：

Logistic 分布是由其位置和尺度参数定义的连续分布。Logistic 分布的形状与正态分布的形状相似，但是 Logistic 分布的尾部更长，所以我们可以使用 Logistic 分布来建模比正态分布具有更长尾部和更高波峰的数据分布。在深度学习中常用到的 Sigmoid 函数就是 Logistic 的分布函数在

equation?tex=%5Cmu%3D0%2C+%5Cgamma%3D1 的特殊形式。

1.2 Logistic 回归

之前说到 Logistic 回归主要用于分类问题，我们以二分类为例，对于所给数据集假设存在这样的一条直线可以将数据完成线性可分。

决策边界可以表示为

equation?tex=w_1x_1%2Bw_2x_2%2Bb%3D0 ，假设某个样本点

equation?tex=h_w%28x%29+%3D+w_1x_1%2Bw_2x_2%2Bb+%3E+0 那么可以判断它的类别为 1，这个过程其实是感知机。

Logistic 回归还需要加一层，它要找到分类概率 P(Y=1) 与输入向量 x 的直接关系，然后通过比较概率值来判断类别。

考虑二分类问题，给定数据集

equation?tex=+D%3D%7B%28x_%7B1%7D%2C+y_%7B1%7D%29%2C%28x_%7B2%7D%2Cy_%7B2%7D%29%2C%5Ccdots%2C%28x_%7BN%7D%2C+y_%7BN%7D%29%7D%2C+x_%7Bi%7D+%5Csubseteq+R%5E%7Bn%7D%2C+y_%7Bi%7D+%5Cin+%7B0%2C1%7D%2Ci%3D1%2C2%2C%5Ccdots%2CN+++%5C%5C

考虑到

equation?tex=w%5E%7BT%7Dx%2Bb 取值是连续的，因此它不能拟合离散变量。可以考虑用它来拟合条件概率

equation?tex=p%28Y%3D1%7Cx%29 ，因为概率的取值也是连续的。

但是对于

equation?tex=w+%5Cne+0 (若等于零向量则没有什么求解的价值)，

equation?tex=w%5E%7BT%7Dx%2Bb 取值为

equation?tex=R ，不符合概率取值为 0 到 1，因此考虑采用广义线性模型。

最理想的是单位阶跃函数：

equation?tex=p%28y%3D1+%7C+x%29%3D%5Cbegin%7Bcases%7D+0%2C%26+z%5Clt+0+%5C%5C+0.5%2C%26+z+%3D+0%5C%5C+1%2C%26+z%5Cgt+0%5C+%5Cend%7Bcases%7D+%2C%5Cquad+z%3Dw%5ET+x%2Bb++%5C%5C

但是这个阶跃函数不可微，对数几率函数是一个常用的替代函数：

$equation?tex=+y+%3D+%5Cfrac%7B1%7D%7B1%2Be%5E%7B-%28w%5E%7BT%7D+x+%2B+b%29%7D%7D++%5C%5C$

于是有：

$equation?tex=+ln+%5Cfrac%7By%7D%7B1%E2%88%92y%7D+%3D+w%5E%7BT%7Dx+%2B+b+%5C%5C$

我们将 y 视为 x 为正例的概率，则 1-y 为 x 为其反例的概率。两者的比值称为几率(odds)，指该事件发生与不发生的概率比值，若事件发生的概率为 p。则对数几率：

$equation?tex=+ln%28odds%29+%3D+ln+%5Cfrac%7By%7D%7B1%E2%88%92y%7D++%5C%5C$

将 y 视为类后验概率估计，重写公式有：

$equation?tex=w%5E%7BT%7D+x+%2B+b+%3D+ln%5Cfrac%7BP%28Y%3D1%7Cx%29%7D%7B1-P%28Y%3D1%7Cx%29%7D+%5C%5C+P%28Y%3D1%7Cx%29+%3D+%5Cfrac%7B1%7D%7B1%2Be%5E%7B-%28w%5E%7BT%7D+x+%2B+b%29%7D%7D+%5C%5C$