【机器学习】逻辑回归LR

最新推荐文章于 2024-08-22 17:19:50 发布

sdbhewfoqi

最新推荐文章于 2024-08-22 17:19:50 发布

阅读量990

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_31866177/article/details/88422072

版权

机器学习专栏收录该内容

72 篇文章

订阅专栏

逻辑回归假设数据服从伯努利分布，通过极大化似然函数的方法，运用梯度下降来求解参数，来达到将数据二分类的目的。

LR为什么是线性模型

Logistic Regression从几率的概念构建线性回归模型。一个事件发生的几率（odds）为该事件发生的概率与不发生概率的比值，几率的取值范围为[0,+∞)，其对数的取值范围为实数域，所以，可以将对数几率作为因变量构建线性回归模型：

$log\frac{p}{1-p}=W^{T}X$

由此可得 $p=\frac{1}{1+exp(-W^{T}X)}$ ，即P(y=1|x,w)=p，这便是Logistic Regression采用sigmoid函数的原因，sigmoid函数将自变量的线性组合映射到（0,1），用以表述分类的概率特性。从sigmoid函数看出，当 $\theta ^{T}X>0$ 时，y=1，否则 y=0。 $\theta ^{T}X=0$ 是模型隐含的分类平面（在高维空间中，我们说是超平面）。所以说逻辑回归本质上是一个线性模型。（这里我再想想。。。）

LR如何解决低维不可分

特征映射：通过特征变换的方式把低维空间转换到高维空间，而在低维空间不可分的数据，到高维空间中线性可分的几率会高一些。具体方法：核函数，如：高斯核，多项式核等等。

LR如何解决线性不可分问题？

逻辑回归本质上是一个线性模型，但是，这不意味着只有线性可分的数据能通过LR求解，实际上，我们可以通过2种方式帮助LR实现：
（1）利用特殊核函数，对特征进行变换：把低维空间转换到高维空间，而在低维空间不可分的数据，到高维空间中线性可分的几率会高一些。
（2）扩展LR算法，提出FM算法。

求loss为什么可以用似然函数？

因为目标是要让预测为正的的概率最大，且预测为负的概率也最大，即每一个样本预测都要得到最大的概率，将所有的样本预测后的概率进行相乘都最大，这就能到似然函数了。

LR参数归一化对结构有什么影响？

有些模型在各个维度进行不均匀伸缩后，最优解与原来等价，例如logistic regression（因为θ的大小本来就可以自己学习出不同的feature的重要性吧？）。对于这样的模型，是否标准化理论上不会改变最优解。但是，由于实际求解往往使用迭代算法，如果目标函数的形状太“扁”，迭代算法可能收敛得很慢甚至不收敛。所以对于具有伸缩不变性的模型，最好也进行数据标准化。

LR为什么要离散特征？

逻辑回归LR的特征为什么要先离散化

1）计算简单
2）简化模型
3）增强模型的泛化能力，不易受噪声的影响

1. 稀疏向量内积乘法运算速度快，计算结果方便存储，容易scalable（扩展）。

2. 离散化后的特征对异常数据有很强的鲁棒性：比如一个特征是年龄>30是1，否则0。如果特征没有离散化，一个异常数据“年龄300岁”会给模型造成很大的干扰。

3. 逻辑回归属于广义线性模型，表达能力受限；单变量离散化为N个后，每个变量有单独的权重，相当于为模型引入了非线性，能够提升模型表达能力，加大拟合。

4. 离散化后可以进行特征交叉，由M+N个变量变为M*N个变量，进一步引入非线性，提升表达能力。

5. 特征离散化后，模型会更稳定，比如如果对用户年龄离散化，20-30作为一个区间，不会因为一个用户年龄长了一岁就变成一个完全不同的人。当然处于区间相邻处的样本会刚好相反，所以怎么划分区间是门学问。

李沐少帅指出，模型是使用离散特征还是连续特征，其实是一个“海量离散特征+简单模型” 同 “少量连续特征+复杂模型”的权衡。既可以离散化用线性模型，也可以用连续特征加深度学习。就看是喜欢折腾特征还是折腾模型了。通常来说，前者容易，而且可以n个人一起并行做，有成功经验；后者目前看很赞，能走多远还须拭目以待。

逻辑回归的优缺点总结

在这里我们总结了逻辑回归应用到工业界当中一些优点：

形式简单，模型的可解释性非常好。从特征的权重可以看到不同的特征对最后结果的影响，某个特征的权重值比较高，那么这个特征最后对结果的影响会比较大。

模型效果不错。在工程上是可以接受的（作为baseline)，如果特征工程做的好，效果不会太差，并且特征工程可以大家并行开发，大大加快开发的速度。

训练速度较快。分类的时候，计算量仅仅只和特征的数目相关。并且逻辑回归的分布式优化sgd发展比较成熟，训练的速度可以通过堆机器进一步提高，这样我们可以在短时间内迭代好几个版本的模型。

资源占用小,尤其是内存。因为只需要存储各个维度的特征值，。

方便输出结果调整。逻辑回归可以很方便的得到最后的分类结果，因为输出的是每个样本的概率分数，我们可以很容易的对这些概率分数进行cutoff，也就是划分阈值(大于某个阈值的是一类，小于某个阈值的是一类)。

但是逻辑回归本身也有许多的缺点:

准确率并不是很高。因为形式非常的简单(非常类似线性模型)，很难去拟合数据的真实分布。

很难处理数据不平衡的问题。举个例子：如果我们对于一个正负样本非常不平衡的问题比如正负样本比 10000:1.我们把所有样本都预测为正也能使损失函数的值比较小。但是作为一个分类器，它对正负样本的区分能力不会很好。

处理非线性数据较麻烦。逻辑回归在不引入其他方法的情况下，只能处理线性可分的数据，或者进一步说，处理二分类的问题。

逻辑回归本身无法筛选特征。有时候，我们会用gbdt来筛选特征，然后再上逻辑回归。

什么是参数模型（LR）与非参数模型（SVM）？

在统计学中，参数模型通常假设总体（随机变量）服从某一个分布，该分布由一些参数确定（比如正太分布由均值和方差确定），在此基础上构建的模型称为参数模型；非参数模型对于总体的分布不做任何假设，只是知道总体是一个随机变量，其分布是存在的（分布中也可能存在参数），但是无法知道其分布的形式，更不知道分布的相关参数，只有在给定一些样本的条件下，能够依据非参数统计的方法进行推断。

为什么logistic regression要使用sigmoid函数？（来自灵魂的拷问）

LR在bernolli distribution下是可以推出sigmiod函数的。

作者：匿名用户
看了一下，几乎所有的回答都只解释了“为什么可以用sigmoid”，而没有解释“为什么要用sigmoid”。虽然也有回答提到了exponential family中bernoulli的形式，但高票回答基本只说明了sigmoid的各种良好性质。

若是光从这个角度解释的话，probit也具有相同的性质，为什么除了做GLM（广义线性模型）的，基本上就没人用呢？

说到底源于sigmoid，或者说exponential family所具有的最佳性质，即maximum entropy的性质。
虽然不清楚历史上孰先孰后，但这并不妨碍maximum entropy给了logistic regression一个很好的数学解释。

为什么maximum entropy好呢？entropy翻译过来就是熵，所以maximum entropy也就是最大熵。熵原本是information theory中的概念，用在概率分布上可以表示这个分布中所包含的不确定度，熵越大不确定度越大。所以大家可以想象到，均匀分布熵最大，因为基本新数据是任何值的概率都均等。

而我们现在关心的是，给定某些假设之后，熵最大的分布。也就是说这个分布应该在满足我假设的前提下越均匀越好。比如大家熟知的正态分布，正是假设已知mean和variance后熵最大的分布。

回过来看logistic regression，这里假设了什么呢？首先，我们在建模预测 Y|X，并认为 Y|X 服从bernoulli distribution，所以我们只需要知道 P(Y|X)；其次我们需要一个线性模型，所以 P(Y|X) = f(wx)。接下来我们就只需要知道 f 是什么就行了。而我们可以通过最大熵原则推出的这个 f，就是sigmoid。

其实前面也有人剧透了bernoulli的exponential family形式，也即是 1/ (1 + e^-z)。

王赟 Maigo的回答 - 知乎

LR如何解决多分类问题？

简言之，把Sigmoid函数换成softmax函数，即可适用于多分类的场景。
Softmax 回归是直接对逻辑回归在多分类的推广，相应的模型也可以叫做多元逻辑回归（Multinomial Logistic Regression）。

【机器学习】高维稀疏特征的时候，LR的效果会比GBDT好

高维稀疏特征的时候，lr 的效果会比 gbdt 好，为什么？

这个问题我也是思考了好久，在平时的项目中也遇到了不少 case，确实高维稀疏特征的时候，使用 gbdt 很容易过拟合。
但是还是不知道为啥，后来深入思考了一下模型的特点，发现了一些有趣的地方。
假设有1w 个样本， y类别0和1，100维特征，其中10个样本都是类别1，而特征 f1的值为0，1，且刚好这10个样本的 f1特征值都为1，其余9990样本都为0(在高维稀疏的情况下这种情况很常见)，我们都知道这种情况在树模型的时候，很容易优化出含一个使用 f1为分裂节点的树直接将数据划分的很好，但是当测试的时候，却会发现效果很差，因为这个特征只是刚好偶然间跟 y拟合到了这个规律，这也是我们常说的过拟合。但是当时我还是不太懂为什么线性模型就能对这种 case 处理的好？照理说：线性模型在优化之后不也会产生这样一个式子：y = W1*f1 + Wi*fi+….，其中 W1特别大以拟合这十个样本吗，因为反正 f1的值只有0和1，W1过大对其他9990样本不会有任何影响。
后来思考后发现原因是因为现在的模型普遍都会带着正则项，而 lr 等线性模型的正则项是对权重的惩罚，也就是 W1一旦过大，惩罚就会很大，进一步压缩 W1的值，使他不至于过大，而树模型则不一样，树模型的惩罚项通常为叶子节点数和深度等，而我们都知道，对于上面这种 case，树只需要一个节点就可以完美分割9990和10个样本，惩罚项极其之小.
这也就是为什么在高维稀疏特征的时候，线性模型会比非线性模型好的原因了：带正则化的线性模型比较不容易对稀疏特征过拟合。

损失函数推导

LR补充图

KNN和LR有什么本质区别

knn是惰性学习算法，不会去自主学习特征权重。它没有训练过程，基本原理就是找到训练数据集里面离需要预测的样本点距离最近的k个值（距离可以使用比如欧式距离，k的值需要自己调参），然后把这k个点的label做个投票，选出一个label做为预测。这是与LR最本质的区别。
knn是基于距离的，LR基于概率。所以knn需要事先对数据进行归一化，而LR对数据没有太多约束。
LR适用与高维稀疏数据，而knn对于大型数据的预测结果很糟糕。

参考：

机器学习面试题之——LR问题集合

LR逻辑回归（这个人真的讲的很好！）

逻辑回归的常见面试点总结很多都是根据这篇的扩展

逻辑回归（LR）个人学习总结篇（有空要再看看）

机器学习之Logistic回归激活函数为什么是Sigmoid？