分类问题中的随机森林

一、Ensemble learning

集成学习通过构建并结合多个学习器来完成学习任务,有时候也被称为多分类系统。

集成学习就是组合这里的多个弱监督模型以期得到一个更好更全面的强监督模型,集成学习潜在的思想是即便某一个弱分类器得到了错误的预测,其他的弱分类器也可以将错误纠正回来。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IZkma3j6-1642086489866)(C:\Users\kai\AppData\Roaming\Typora\typora-user-images\image-20220113154505006.png)]

两种集成学习的算法:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KAm2logL-1642086466566)(C:\Users\kai\AppData\Roaming\Typora\typora-user-images\image-20220113155323426.png)]

•Boosting:每个模型相互独立,相互平行。然后对其预测结果进行平均或者多数表决的原则来决定集成评估器的结果

•Bagging:模型循序渐进,依次增强。基评估器是相关的,是按顺序一一构建的,其核心思想是结合弱评估器的力量一次次对难以评估的样本进行预测,从而构成一个强评估器。

二、Bootstrap Sampling

在现实任务中,个体学习器是为解决同一个问题训练出来的,它们之间是不可能完全独立的,虽然“独立”在现实任务中无法做到,但可以设法使基学习器尽可能的具有较大的差异,由此我们引入了自助采样法(Bootstrap sampling)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gdtG6RIE-1642086466566)(C:\Users\kai\AppData\Roaming\Typora\typora-user-images\image-20220113155356481.png)]

  1. 在原有的样本中通过重抽样抽取一定数量(比如100)的新样本,重抽样(Re-sample)的意思就是有放回的抽取,即一个数据有可以被重复抽取超过一次。
  2. 基于产生的新样本,计算我们需要估计的统计量。
  3. 重复上述步骤n次(一般是n>1000次)

三、决策树

决策树算法相比于K-means等分类算法,优点在于能够理解数据中所蕴涵的知识信息,因此决策树可以使用不熟悉的数据集合,并从中提取出一系列的规则,这些机器根据数据集创建规则的过程,就是机器学习的过程。
决策树主要功能是从一张有特征和标签的表格中,通过对特定特征进行提问,为我们总结出一系列决策规则,并用树状图来呈现这些决策规则。

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值