LR、SVM、RF、GBDT、XGBoost和LightGbm比较

正则化

seq0

seq0

L1范数

seq0

蓝色的是范数的解空间,红色的是损失函数的解空间.L2范数和损失函数的交点处一般在坐标轴上,会使\(\beta=0\),当然并不一定保证交于坐标轴,但是通过实验发现大部分可以得到稀疏解.

L2范数

seq0

蓝色的是范数的解空间;红色的是损失函数的解空间.当两个空间相交时得到目标函数的一个解. 增加了正则化项后,随着r的不断增加,原始的解空间会被不断压缩, 如果选择的\(\lambda\), 可以将最优点压缩到\(\tilde{\beta}\),从而得到复杂程度最小的模型. L2范数和损失函数的交点处所得到的参数\(\beta\)可以无限小,但是不一定会等于0.

Lasso回归

拉索回归(lasso回归)本质上是针对线性回归问题引入了L1范数正则,通过缩减回归系数避免过拟合问题,其不同于L2范数,其可以将某些系数缩减为0即所谓的具备稀疏性(稀疏性的好处是简化计算、容易理解模型、减少存储空间、不容易出现过拟合等等.

L1范数罚有一个问题:由于|X|函数在0处不可导,故而直接使用最小二乘法、梯度下降法等方法均失效,但是由于其为第一类间断点中的可去间断点,可以通过补充该点的定义解决,通常,对于线性回归中的lasso回归可以采用近似的前向逐步回归,坐标轴下降法替代。

Ridge

岭回归本质上是针对线性回归问题引入了L2范数正则,通过缩减回归系数避免过拟合问题,最先用来处理特征数多于样本数的情况(高维小样本问题).


Logistic regression

总括

LR回归使用sigmoid函数,将线性模型 wTx 的结果压缩到[0,1] 之间,使其拥有概率意义。其本质还是一个线性模型,实现相对简单。

原理

逻辑斯蒂回归函数, 样本为正类的概率,样本为负类的概率. 样本的概率.
用极大似然函数求解, 损失函数是交叉熵, 最后求导等于普通的MSE求导的式子.

优化方法

梯度下降法实现相对简单,但是其收敛速度往往不尽人意。所以在LR回归的实际算法中,用到的是牛顿法,拟牛顿法(DFP、BFGS、L-BFGS)。

进一步优化--带正则化的LR

最大似然估计法没有考虑训练集以外的因素,很容易造成过拟合,为了解决过拟合问题,通过添加正则化项,控制模型的复杂程度。常用的有L1和L2正则化.
L1会是特征的权重系数为0,相当于是删除对应的特征;L2会保留原始的特征,但是特征的权重参数会很小。

QA

  • 为什么使用正则化?
      因为使用极大似然估计,模型会全力拟合数据,容易出现过拟合现象.
  • 为什么一般使用L2正则化?
      因为L2正则化只会使函数的某些参数缩小,降低这些参数的作用. 但是如果直接使用L1正则化会使参数直接为0, 会极大降低模型的效果. 所以一般我们选择更温和的L2正则化.

优点

  1. 计算代价不高,对时间和内存需求较小,很适合大数据.(推荐系统)
  2. 使用梯度下降的优化算法可以用于分布式系统,并且还有在线算法实现,用较少的资源处理大型数据。(推荐系统)
  3. LR对于数据中小噪声的鲁棒性很好,并且不会受到轻微的多重共线性的特别影响。(严重的多重共线性则可以使用逻辑回归结合L2正则化来解决,但是若要得到一个简约模型,L2正则化并不是最好的选择,因为它建立的模型涵盖了全部的特征。)

缺点

sigmoid函数的缺点。预测结果呈“S”型,因此从log(odds)向概率转化的过程是非线性的,在两端随着​log(odds)值的变化,概率变化很小,边际值太小,slope太小,而中间概率的变化很大,很敏感。导致很多区间的变量变化对目标概率的影响没有区分度,无法确定阀值。

这段出现错误的原因是LR的优化方式是\(y_i-\tilde{y_i},使用梯度下降法就得到结果,根本和sigmoid函数没有关系\)

  1. 不适应数据缺失,特征空间很大的数据
  2. 因为w表示各个特征的权重,一旦特征过多,很容易过拟合.
    过拟合的真正原因是使用极大似然估计,没有考虑除了当前数据之外的数据,所以容易过拟合.

应用

在CTR预估问题的发展初期,使用最多的方法就是逻辑回归(LR),LR使用了Sigmoid变换将函数值映射到0~1区间,映射后的函数值就是CTR的预估值。LR属于线性模型,容易并行化,可以轻松处理上亿条数据,但是学习能力十分有限,需要大量的特征工程来增加模型的学习能力。但大量的特征工程耗时耗力同时并不一定会带来效果提升。因此,如何自动发现有效的特征、特征组合,弥补人工经验不足,缩短LR特征实验周期,是亟需解决的问题。FM模型通过隐变量的方式,发现两两特征之间的组合关系,但这种特征组合仅限于两两特征之间,后来发展出来了使用深度神经网络去挖掘更高层次的特征组合关系。但其实在使用神经网络之前,GBDT也是一种经常用来发现特征组合的有效思路。

用LR做点击率预估时,通常将连续特征离散化,并对离散化的特征进行One-Hot编码,最后对特征进行二阶或者三阶的特征组合,目的是为了得到非线性的特征,这样做的优势有以下几点:

  • 6
    点赞
  • 38
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
随机森林、支持向量机(SVM)和XGBoost都是常用的分类模型,它们在不同的场景下有各自的优势和适用性。 随机森林是一种集成学习方法,它由多个决策树组成。每个决策树都是基于随机选择的特征子集进行训练,最后通过投票或平均的方式来进行分类。随机森林具有以下特点: 1. 随机性:通过随机选择特征子集和样本子集进行训练,减少了过拟合的风险。 2. 高效性:可以并行处理,适用于大规模数据集。 3. 鲁棒性:对于缺失值和异常值具有较好的鲁棒性。 支持向量机(SVM)是一种二分类模型,其目标是找到一个最优的超平面来将不同类别的样本分开。SVM具有以下特点: 1. 非线性分类:通过使用核函数,SVM可以处理非线性可分的数据。 2. 泛化能力强:SVM通过最大化间隔来选择最优超平面,具有较好的泛化能力。 3. 对于高维数据有效:SVM在高维空间中表现良好,适用于特征维度较高的数据。 XGBoost是一种梯度提升树模型,它通过迭代地训练多个决策树来进行分类。XGBoost具有以下特点: 1. 高准确性:XGBoost通过优化损失函数,能够得到较高的预测准确性。 2. 高效性:XGBoost使用了一些优化技巧,如特征并行和近似算法,提高了训练和预测的效率。 3. 对于不平衡数据集有效:XGBoost通过设置样本权重和调整阈值等方式,能够处理不平衡数据集。 综上所述,随机森林适用于大规模数据集和高维数据,SVM适用于非线性分类和高维数据,XGBoost适用于高准确性和不平衡数据集。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值