Logistic Regression(1)

本文分享了Logistic Regression(LR)的应用经验,包括与SVM、GBDT的对比,样本处理方法,特征处理策略以及算法调优的技巧。LR以其概率输出、可解释性强和训练速度快等特点被广泛使用。在样本处理中,离散化和特征缩放是关键,而特征处理中的离散化能提升模型性能。在算法调优时,正则化、损失函数调整和模型融合是重要手段。
摘要由CSDN通过智能技术生成
LR 应用经验
LR-SVM-GBDT对比:
  • LR能以概率的形式输出结果,而非只是0和1的判定。SVM的输出原本只能是0和1,是用来做分类的,可以通过一定的方法拿到概率,比如拟合点到超平面的距离。
  • LR的可解释性强,可以从拟合结果中直观看到权重,可以看到那个特征对最终的影响大小,可空度非常高,通过观察可以随时调整权重。一般用来做基线版本。
  • 训练快,GBDT样本量级不能太大,但是GBDT可以输连续值。通过一些技巧将特征打到更高的维度时(离散化等),LR的训练速度非常快(比GBDT快)。
  • LR的结果是概率,可以用来做一个排序模型。
  • 添加特征非常简单。
关于样本处理:
  1. 样本量太大怎么办?

    • 可以对特征作离散化,用one-hot编码把特征处理成0,1值,收敛速度会快很多。

    • 如果非要用连续值,可以 做scaling,也就是幅度变化。如果不做幅度变化,当有些特征非常大,比如房子面积,有些特侦比较小,如房间数,则画出来的等高线会变成一个椭圆,在计算梯度的时候不是特别准确,导致收敛特别慢或者来回振荡。

    • 试试并行化平台,spark。

    • 如果没有并行化平台,可以试试采样(采样方式:日期or用户or行为),不能随机取,在大样本情况下,随机取会破坏掉数据分布规律。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值