LR、SVM、RF、GBDT、XGBoost和LightGbm比较

最新推荐文章于 2025-04-17 17:16:50 发布

weixin_30299709

最新推荐文章于 2025-04-17 17:16:50 发布

阅读量7.6k

点赞数 6

文章标签：人工智能数据结构与算法大数据

原文链接：http://www.cnblogs.com/x739400043/p/10098659.html

版权

本文详细对比了多种机器学习算法，包括L1/L2正则化的LR、SVM、Random Forest、AdaBoost、GBDT、XGBoost和LightGBM。探讨了它们的正则化方法、优化策略、优缺点以及应用场景。XGBoost是GBDT的优化版，利用损失函数的一阶导和二阶导以及正则项，提高了模型的训练速度和防止过拟合。LightGBM在XGBoost基础上进一步优化，如直方图算法和叶子生长策略，支持类别特征且能进行特征并行和数据并行。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

正则化

seq0

L1范数

seq0

蓝色的是范数的解空间,红色的是损失函数的解空间.L2范数和损失函数的交点处一般在坐标轴上,会使\(\beta=0\),当然并不一定保证交于坐标轴,但是通过实验发现大部分可以得到稀疏解.

L2范数

seq0

蓝色的是范数的解空间;红色的是损失函数的解空间.当两个空间相交时得到目标函数的一个解. 增加了正则化项后,随着r的不断增加,原始的解空间会被不断压缩, 如果选择的\(\lambda\), 可以将最优点压缩到\(\tilde{\beta}\),从而得到复杂程度最小的模型. L2范数和损失函数的交点处所得到的参数\(\beta\)可以无限小,但是不一定会等于0.

Lasso回归

拉索回归(lasso回归)本质上是针对线性回归问题引入了L1范数正则，通过缩减回归系数避免过拟合问题，其不同于L2范数，其可以将某些系数缩减为0即所谓的具备稀疏性(稀疏性的好处是简化计算、容易理解模型、减少存储空间、不容易出现过拟合等等．

L1范数罚有一个问题：由于|X|函数在0处不可导，故而直接使用最小二乘法、梯度下降法等方法均失效，但是由于其为第一类间断点中的可去间断点，可以通过补充该点的定义解决，通常，对于线性回归中的lasso回归可以采用近似的前向逐步回归，坐标轴下降法替代。

Ridge

岭回归本质上是针对线性回归问题引入了L2范数正则，通过缩减回归系数避免过拟合问题，最先用来处理特征数多于样本数的情况(高维小样本问题).

Logistic regression

总括

LR回归使用sigmoid函数，将线性模型 wTx 的结果压缩到[0,1] 之间，使其拥有概率意义。其本质还是一个线性模型，实现相对简单。

原理

逻辑斯蒂回归函数, 样本为正类的概率,样本为负类的概率. 样本的概率.
用极大似然函数求解, 损失函数是交叉熵, 最后求导等于普通的MSE求导的式子.

优化方法

梯度下降法实现相对简单，但是其收敛速度往往不尽人意。所以在LR回归的实际算法中，用到的是牛顿法，拟牛顿法（DFP、BFGS、L-BFGS）。

进一步优化--带正则化的LR

最大似然估计法没有考虑训练集以外的因素，很容易造成过拟合,为了解决过拟合问题，通过添加正则化项，控制模型的复杂程度。常用的有L1和L2正则化.
L1会是特征的权重系数为0，相当于是删除对应的特征；L2会保留原始的特征，但是特征的权重参数会很小。

QA

为什么使用正则化?
因为使用极大似然估计,模型会全力拟合数据,容易出现过拟合现象.

为什么一般使用L2正则化?
因为L2正则化只会使函数的某些参数缩小,降低这些参数的作用. 但是如果直接使用L1正则化会使参数直接为0, 会极大降低模型的效果. 所以一般我们选择更温和的L2正则化.

优点

计算代价不高，对时间和内存需求较小,很适合大数据.(推荐系统)
使用梯度下降的优化算法可以用于分布式系统，并且还有在线算法实现，用较少的资源处理大型数据。(推荐系统)
LR对于数据中小噪声的鲁棒性很好，并且不会受到轻微的多重共线性的特别影响。（严重的多重共线性则可以使用逻辑回归结合L2正则化来解决，但是若要得到一个简约模型，L2正则化并不是最好的选择，因为它建立的模型涵盖了全部的特征。）

缺点

sigmoid函数的缺点。预测结果呈“S”型，因此从log(odds)向概率转化的过程是非线性的，在两端随着log(odds)值的变化，概率变化很小，边际值太小，slope太小，而中间概率的变化很大，很敏感。导致很多区间的变量变化对目标概率的影响没有区分度，无法确定阀值。

这段出现错误的原因是LR的优化方式是\(y_i-\tilde{y_i}，使用梯度下降法就得到结果，根本和sigmoid函数没有关系\)

不适应数据缺失，特征空间很大的数据
~~因为w表示各个特征的权重,一旦特征过多,很容易过拟合~~.
过拟合的真正原因是使用极大似然估计,没有考虑除了当前数据之外的数据,所以容易过拟合.

应用

在CTR预估问题的发展初期，使用最多的方法就是逻辑回归(LR)，LR使用了Sigmoid变换将函数值映射到0~1区间，映射后的函数值就是CTR的预估值。LR属于线性模型，容易并行化，可以轻松处理上亿条数据，但是学习能力十分有限，需要大量的特征工程来增加模型的学习能力。但大量的特征工程耗时耗力同时并不一定会带来效果提升。因此，如何自动发现有效的特征、特征组合，弥补人工经验不足，缩短LR特征实验周期，是亟需解决的问题。FM模型通过隐变量的方式，发现两两特征之间的组合关系，但这种特征组合仅限于两两特征之间，后来发展出来了使用深度神经网络去挖掘更高层次的特征组合关系。但其实在使用神经网络之前，GBDT也是一种经常用来发现特征组合的有效思路。