一些算法笔记(XGboost、梯度下降法、L1与L2正则化、Logistic回归)

1.Xgboost是一种串行的算法,如何实现并行操作

XGboost算法: 树和树之间是串行的,下一棵树生成与上一棵树有关;并行主要体现在对特征的选择,分裂点计算上是可以并行的(单棵树生长上特征是可以并行的)

2. XGboost最后的score如何使用

XGboost是有CART回归树构成的,每棵树输出的是一个值score;汇总求和多棵树得到每个样本的score
回归问题:直接使用
分类问题:将多棵树加总求和,得到每个样本的score;送入到sigmoid函数中,得到分 类的概率;
每增加一棵树,用来调整score, 使得每增加一棵树,正样本的概率往类别1那边靠,负样本的概率往类别0那边靠。
不关注每增加一棵树的得分直接修正最后的结果,我们关注每增加一棵树,希望最终的得分能让损失函数往下降。

3. 梯度下降法

凸函数
沿着梯度方向,函数值是变大的方向
沿着负梯度方向,函数值是逐步变小的方向
逐步迭代

4. L1、L2正则化

L1: ||x|| --> 产生稀疏解
L2 : ||x||2 —> 压缩效应,权重参数k变得很小,变得很光滑
从贝叶斯角度(先验角度)理解L1,L2 :
L1正则化: 相当于对数据加了一个先验 Laplace(拉普拉斯)先验
L2正则化: 相当于对数据加了一个先验 高斯先验(Gaussian分布)

5.Logistic回归中极大似然估计的理解

在这里插入图片描述

6. 朴素贝叶斯

p(B) 先验概率
P(B|A) 后验概率
P(AB)联合概率

7. 交叉验证

交叉验证是用来评估的手段;当样本类别分布不均衡时,不能使用简单随机交叉验证去;而是使用分层抽样交叉验证(Stratified cross-validation) 用于抽样非均衡样本, 用于保证每一折中不同样本比例一致。

时间序列数据不能使用简单的随机交叉验证去切分(不能用后面发生的数据与预测之前的)

类别不均衡时,不能使用准确率这样的指标,而是是用 f1-score\AUC

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值