Logistic Regression（1）

最新推荐文章于 2024-02-27 17:17:30 发布

Manfestain

最新推荐文章于 2024-02-27 17:17:30 发布

阅读量133

点赞数

本文链接：https://blog.csdn.net/Beans___Lee/article/details/103031996

版权

本文分享了Logistic Regression（LR）的应用经验，包括与SVM、GBDT的对比，样本处理方法，特征处理策略以及算法调优的技巧。LR以其概率输出、可解释性强和训练速度快等特点被广泛使用。在样本处理中，离散化和特征缩放是关键，而特征处理中的离散化能提升模型性能。在算法调优时，正则化、损失函数调整和模型融合是重要手段。

摘要由CSDN通过智能技术生成

LR 应用经验

LR-SVM-GBDT对比：

LR能以概率的形式输出结果，而非只是0和1的判定。SVM的输出原本只能是0和1，是用来做分类的，可以通过一定的方法拿到概率，比如拟合点到超平面的距离。
LR的可解释性强，可以从拟合结果中直观看到权重，可以看到那个特征对最终的影响大小，可空度非常高，通过观察可以随时调整权重。一般用来做基线版本。
训练快，GBDT样本量级不能太大，但是GBDT可以输连续值。通过一些技巧将特征打到更高的维度时（离散化等），LR的训练速度非常快（比GBDT快）。
LR的结果是概率，可以用来做一个排序模型。
添加特征非常简单。

关于样本处理：

样本量太大怎么办？
- 可以对特征作离散化，用one-hot编码把特征处理成0，1值，收敛速度会快很多。
- 如果非要用连续值，可以做scaling，也就是幅度变化。如果不做幅度变化，当有些特征非常大，比如房子面积，有些特侦比较小，如房间数，则画出来的等高线会变成一个椭圆，在计算梯度的时候不是特别准确，导致收敛特别慢或者来回振荡。
- 试试并行化平台，spark。
- 如果没有并行化平台，可以试试采样（采样方式：日期or用户or行为），不能随机取，在大样本情况下，随机取会破坏掉数据分布规律。

最低0.47元/天解锁文章

Manfestain

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Logistic Regression（1）

LR 应用经验LR-SVM-GBDT对比：LR能以概率的形式输出结果，而非只是0和1的判定。SVM的输出原本只能是0和1，是用来做分类的，可以通过一定的方法拿到概率，比如拟合点到超平面的距离。LR的可解释性强，可以从拟合结果中直观看到权重，可以看到那个特征对最终的影响大小，可空度非常高，通过观察可以随时调整权重。一般用来做基线版本。训练快，GBDT样本量级不能太大，但是G...
复制链接

扫一扫