集成学习ensamble learning

  1. 定义:通过构建并结合多个学习器来完成任务

        同质:基学习器        异质:组件学习器

  • 要获得好的集成,个体学习器应该好而不同。
  • 假设基学习器的误差相互独立,则个体学习器数目越大,集成的错误率将指数级下降,最终趋于0.
  • 优点:降低单个学习器可能的泛化性能不佳

                  降低陷入糟糕局部极小点的风险;

                  扩大假设空间

  • 个体学习器之间存在强依赖关系,必须串行生成的序列化方法:Boosting
  • 个体学习器之间不存在强依赖关系,可同时生成的并列化方法:Bagging、随机森林

随机森林

以决策树为基学习器的基础上构建bagging集成的基础上,进一步在决策树的训练过程中引入随机属性选择。

  1. 用bootstrap方法生成m个训练集
  2. 对于每个训练集,构造一颗决策树
  3. 在节点找特征进行分裂的时候,在特征中随机抽取一部分特征,在抽到的特征中间找到最优解,应用于节点,进行分裂。

实际上相当于对于样本和特征都进行了采样(如果把训练数据看成矩阵,就像实际中常见的那样,那么就是一个行和列都进行采样的过程),所以可以避免过拟合。

随机

1、Random sampling of training data points when building trees数据集、
2、Random subsets of features considered when splitting nodes先从节点的属性集合随机选择一个包含k个属性的子集,再从该子集中选择一个最优属性用于划分

优点

  • 简单、易于实现、
  • 在当前所有算法中,具有极好的准确率
  • 训练可以高度并行化,计算开销小能够有效地运行在大数据集上
  • 能够处理具有高维特征的输入样本,而且不需要降维
  • 能够评估各个特征在分类问题上的重要性
  • 对于缺省值问题也能够获得很好得结果
  • 在训练后,可以给出各个特征对于输出的重要性
  • 由于采用了随机采样,训练出的模型的方差小,泛化能力强

缺点

  • 很难找到合适的超参数
  • 在某些噪音比较大的样本集上,RF模型容易陷入过拟合。
  • 取值划分比较多的特征容易对RF的决策产生更大的影响,从而影响拟合的模型的效果。
     

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值