【机器学习】集成学习各方法优缺点特征总结

随机森林

优点

  1. 具有极高的准确率
  2. 随机性的引入,使得随机森林不容易过拟合,有很好的抗噪声能力,对异常点离群点不敏感
  3. 能处理很高维度的数据,并且不用做特征选择
  4. 既能处理离散型数据,也能处理连续型数据,数据集无需规范化(归一化)
  5. 实现简单,训练速度快,可以得到变量重要性排序(计算每个特征在分裂时被选到的次数或者某个特征不纯度平均下降了多少)
  6. 容易实现并行化
  7. 在创建随机森林的时候,对generlization error使用的是无偏估计,不需要额外的验证集

缺点

  1. 随机森林已经被证明在某些噪音较大的分类或回归问题上会过拟合 
  2. 对于有不同取值的属性的数据,取值划分较多的属性会对随机森林产生更大的影响,所以随机森林在这种数据上产出的属性权值是不可信的。
  3. 随机森林模型还有许多不好解释的地方,有点算个黑盒模型

Adaboost

优点

  1. 用于二分类或多分类的应用场景
  2. 在Adaboost的框架下,可以使用各种回归分类模型来构建弱学习器,非常灵活。
  3. 无脑化,简单,不会overfitting,不用调分类器
  4. 不需要归一化
  5. 泛化错误率低,精度高,可应用在大部分分类器上,无需调整参数 
  6. 用于特征选择(feature selection)

缺点

  1. AdaBoost迭代次数也就是弱分类器数目不太好设定,可以使用交叉验证来进行确定。
  2. 数据不平衡导致分类精度下降。
  3. 训练比较耗时,每次重新选择当前分类器最好切分点。
  4. 对离群点敏感,在Adaboost训练过程中,Adaboost会使得难于分类样本的权值呈指数增长,训练将会过于偏向这类困难的样本,导致Adaboost算法易受噪声干扰

GBDT

优点

  1. 可以灵活处理各种类型的数据,包括连续值和离散值。

  2. 在相对少的调参时间情况下,预测的准备率也可以比较高。这个是相对SVM来说的。

  3. 使用一些健壮的损失函数,对异常值的鲁棒性非常强。比如 Huber损失函数和Quantile损失函数。

  4. 不需要归一化。树模型都不需要,梯度下降算法才需要,

  5. 基分类器的叶子节点个数J选在[4,8]区间内较好,太小,需要太多的迭代次数。太大又容易过拟合。

缺点

  1. 由于弱学习器之间存在依赖关系,难以并行训练数据。不过可以通过子采样的SGBT来达到部分并行
  2. 不适合高维稀疏特征

 

处理高维稀疏特征的时候LR效果比GBDT好?

答案转载自知乎https://www.zhihu.com/question/35821566

知乎里还有几个答案解释了如果利用gbdt,lr,fm等多模型的结合方法去训练样本。

 

GBDT如何构建新的特征(GBDT能够产生高维稀疏特征,然后放到LR离去)

https://blog.csdn.net/luanpeng825485697/article/details/80150594

注意是路径,对于每一个不同的叶子节点,都会有不同的特征路径,比如说第一个是年龄大于20还是小于等于20,第二是性别巴拉巴拉

机器学习中的单一分类模型和集成分类模型都有各自的优缺点。下面是它们的比较: 单一分类模型的优点: 1. 简单直接:单一分类模型通常更容易理解和解释,因为它们基于单个算法进行预测。 2. 训练速度快:由于只需要训练单个模型,所以训练速度相对较快。 3. 适用于小规模数据集:对于小规模数据集,单一分类模型往往能够提供较好的性能。 单一分类模型的缺点: 1. 欠拟合风险:单一分类模型可能无法捕捉复杂的数据关系,导致欠拟合问题。 2. 鲁棒性较差:对于噪声和异常值比较敏感,可能导致预测性能下降。 3. 受限于特征选择:单一分类模型对特征选择非常敏感,如果特征选择不合理,可能会影响模型性能。 集成分类模型的优点: 1. 提高泛化能力:通过结合多个分类模型的预测结果,集成分类模型可以提高整体的泛化能力。 2. 抗噪能力强:集成分类模型通过投票或加权平均等策略,可以减少个别分类模型的错误预测对最终结果的影响。 3. 适应性强:集成分类模型可以适应不同类型的数据集和问题,并且在大规模数据集上通常表现较好。 集成分类模型的缺点: 1. 训练时间长:由于需要训练多个分类模型,并且可能需要进行交叉验证等步骤,因此训练时间相对较长。 2. 处理复杂性增加:集成分类模型的设计和调优相对复杂,需要考虑模型选择、集成策略等因素。 3. 受限于模型选择:集成分类模型的性能受限于单个基础模型的选择,如果基础模型性能较差,集成模型也可能受到影响。 总体而言,单一分类模型适用于简单数据集和快速建模的场景,而集成分类模型适用于复杂数据集和追求更高性能的场景。选择哪种模型取决于具体问题的要求和数据特征
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值