高级算法 基础概念梳理

1、集成学习

      集成方法是将几种机器学习技术组合成一个预测模型的元算法,以达到减小方差、偏差或改进预测的效果,通过弱学习器组合成强学习器。

      序列集成方法:AdaBoost,GBDT,模型之间强依赖

      并行集成方法:随机森林,模型之间无依赖

2、个体学习器

      个体学习器集成学习的单元学习器,是集成学习的基础学习器。

3、boosting的概念

      通过初始训练样本训练得到模型,在上一轮模型迭代基础上通过拟合残差减少残差(AdaBoost)或者减少上一轮模型残差的方式(GBDT)不断迭代,弱模型生成最终强模型。

4、bagging的概念

      有放回抽样k次,训练k个模型,分别预测测试集,综合预测结果。

5、boosting与bagging对比

       (1) bagging是有放回的抽样,样例权重相同,boosting样本不变,根据上次训练结果调整样本样例权重进行本次迭代

       (2) bagging预测函数权重相等,boosting每个弱分类器都有自己的权重

       (3) bagging可以并行训练,模型相互不依赖,boosting依赖上一轮迭代

6、不同结合策略

      6.1 平均法

           6.1.1 简单平均

                    通过直接平均不同模型产生的类别置信度得到最终预测结果 

           6.1.2 加权平均

                     直接平均的基础上加入权重来调节不同模型输出间的重要程度

      6.2 投票法

         是一种多数表决法,表决前需先将各自模型返回的预测置信度转化为预测类别,即最高置信度对应的类别标记  ∈ {1, 2, … , C} 作为该模型的预测结果。多数表决法中在得到样本 x 的最终预测时,若某预测类别获得一半以上模型投票,则该样本预测结果为该类别; 若对该样本无任何类别获得一半以上投票,则拒绝作出预测。

         另一种是相对多数表决法 , 与多数表决法会输出“拒绝预测”不同的是,相对多数表决法一定会返回某个类别作为预测结果, 因为相对多数表决是选取投票数最高的类别作为最后预测结果。

         注:不同类型的基学习器的类概率值不能直接比较,需转化为类标记再投票

      6.3 学习法

         次级训练集利用首次训练预测结果作为输入直接训练模型,如K折,将每折的预测结果拼接为次级训练样本

7、随机森林思想

      分类问题:每棵决策树都是一个分类器,对于一个输入样本,N棵树会有N个分类结果。而随机森林集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出。回归问题:N个弱学习器得到的回归结果进行算术平均得到的值为最终的模型输出。

8、随机森林的推广

     extra trees是RF的一个变种, 原理几乎和RF一模一样,仅有区别有:

  1) 对于每个决策树的训练集,RF采用的是随机采样bootstrap来选择采样集作为每个决策树的训练集,而extra trees一般不采用随机采样,即每个决策树采用原始训练集。

  2) 在选定了划分特征后,RF的决策树会基于基尼系数,均方差之类的原则,选择一个最优的特征值划分点,这和传统的决策树相同。但是extra trees比较的激进,他会随机的选择一个特征值来划分决策树。

 

 从第二点可以看出,由于随机选择了特征值的划分点位,而不是最优点位,这样会导致生成的决策树的规模一般会大于RF所生成的决策树。也就是说,模型的方差相对于RF进一步减少,但是偏倚相对于RF进一步增大。在某些时候,extra trees的泛化能力比RF更好。

参考:https://www.cnblogs.com/pinard/p/6156009.html

9、随机森林的优缺点

      缺点:

      (1) 随机森林已经被证明在某些噪音较大的分类或者回归问题上会过拟合,

      (2) 对于小数据或者低维数据(特征较少的数据),可能不能产生很好的分类

      (3) 随机森林在解决回归问题时,并没有像它在分类中表现的那么好,因为它并不能给出一个连续的输出

      优点:

      (1) 训练速度快

      (2) 对部分特征缺失不敏感

      (3) 由于采用随机采样,训练出的模型的方差小,泛化能力强

10、随机森林sklearn参数解释(主要)

    max_features:RF划分时考虑的最大特征数

    max_depth:决策树最大深度

    min_samples_split:内部节点再划分所需最小样本数

    min_samples_leaf: 叶子节点最少样本数

    n_estimators:树的数量

11、随机森林的应用场景

      数据维度相对低,同时对准确性有较高要求

      分类、回归问题

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值