Logistic Regression(LR)杂记

Logistic Regression(LR)应用经验

1. LR < SVM/GBDT/RandomForest ?

  • LR能以概率的形式输出结果,而非只是0,1判定 ​
  • LR的可解释性强,可控度高(你要给老板讲的嘛…) ​
  • 训练快,feature engineering之后效果赞 ​
  • 添加feature太简单…

2.关于样本处理

样本量太大怎么办?

  • ​离散化后用one-hot编码处理成0,1值 ​
  • 如果要用连续值,注意做scaling ​
  • 试试spark Mllib
  • 试试采样(注意采样方式:日期 or 用户 or 行为)

注意样本的平衡

对样本分布敏感 ​

  • 下采样(样本量足的情况下),上采样(样本数量不太足) ​
  • 修改loss function,给不同权重 ​
  • 采样后的predict结果,用作排序OK,用作判定请还原

3.关于特征处理

离散化
  • 映射到高维空间,用linear的LR(快,且兼具更好的分割性) ​
  • 稀疏化,0,1向量内积乘法运算速度快,计算结果方便存储,容易扩展; ​
  • 离散化后,给线性模型带来一定的非线性
  • 模型稳定,收敛度高,鲁棒性好 ​ 在一定程度上降低了过拟合风险
通过组合特征引入个性化因素
注意特征的频度
  • 区分特征重要度 ​
  • 可以产出层次判定模型
聚类/Hash
  • 增强了极度稀疏的特征表达力 ​
  • 减小了模型,加速运算

4.关于算法调优

假设只看模型
  • 选择合适的正则化(L1, L2, L1+L2) ​
  • 正则化系数C ​
  • 收敛的阈值e,迭代轮数 ​
  • 调整loss function给定不同权重 ​
  • Bagging或其他方式的模型融合 ​
  • 最优化算法选择(‘newton-cg’, ‘lbfgs’, ‘liblinear’, ‘sag’) ​
    小样本liblinear,大样本sag,多分类‘newton-cg’和‘lbfgs’(当然你也可以用liblinear和sag的one-vs-rest)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值