【机器学习基础】集成模型

本文介绍了集成模型,包括Boosting、Bagging、Stacking和Dropout训练。重点探讨了随机森林、GBDT、Xgboost和LGBM,讨论了它们的原理、优缺点以及相互之间的区别。此外,还解释了特征重要性的评估方法和Xgboost中泰勒展开的作用。
摘要由CSDN通过智能技术生成

概述

1. Boosting

降低偏差(bias)

2. Bagging

降低方差

偏差和方差的区别

偏差:预估值与真实值的偏离程度,是算法对数据的拟合能力。
方差:数据扰动,训练集变化时,模型的学习性能。
噪声:任何学习算法在泛化能力的下界,是学习问题本身的难度。

3. Stacking

将第一层的输出train再结合其他的特征集再做一层,就是stacking。例如gbt+lr

4. Dropout训练

Dropout 训练继承模型的方式 from 花书7.12
Dropout 训练的集成包括所有从基础网络除去非输出单元后形成的子网络。在 Dropout 的情况下,所有模型共享参数,其中每个模型继承父神经网络参数的不同子集。

Random Forest

1.原理

在Bagging集成的基础上,进一步在决策树的训练过程中引入了随机特征选择。过程分为四个部分:

  • 随机选择样本(bootstrap放回抽样)
  • 随机选择特征
  • 构建决策树
  • 随机森林投票(平均)

2.优缺点

(1)缺点:

  • 随机森林在分类的效果比回归好。因为RF并不能给出一个连续型的输出。而且预测的时候不能超出数据的范围,可能导致有噪声的数据出现过拟合。
  • 忽略属性之间可能存在的相关性
  • 无法控制模型内部的运行,只能在不同的参数和随机种子之间进行尝试
    (2)优点:
  • 高度并行,易于分布式实现
  • 随机森林可以解决分类和回归,方差和偏差都较低,泛化性能比较好
  • 对高维数据处理很好,并确定最重要的变量,因此被认为是一个不错的降维方法。
  • 存在分类不平衡时,可以提供平衡数据集误差的方法?
  • 由于是树模型,不需要归一化即可直接使用
拓展:【RF模型能够输出特征的重要性程度】

利用随机森林对特征重要性进行评估
本质:计算该特征在分支前后对树的平均gini提升占比所有特征的值。
步骤:

  1. 计算所有树中该特征节点分支前后的所有 gini 指数,包括分支前一个,分支后两个。
  2. 计算每棵树中gini指数的变化量 = gini前 - gini后一 - gini后二
  3. sum(每棵树的delta gini)/所有特征的delta gini

GBDT

1. GBDT适用范围?

  • GBDT 可以适用于回归问题(线性和非线性);
  • GBDT 也可用于二分类问题(设定阈值,大于为正,否则为负)和多分类问题。

2. GBDT和随机森林(RF)的区别?

相同点:) 都是多棵树
(2) 最终结构由多棵树共同决定
不同点:
(1) RF的组成可以是分类树、回归树;组成 GBDT 只能是回归树。
(2) RF的树可以并行生成(Bagging);GBDT 只能串行生成(Boosting)
(3) 对于最终的输出

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值