随机森林RF
随机森林包含多个决策树的分类器,并且其输出的类别是由个别输出的类别的众数而定。通过自助法重采样技术,不断生成训练样本和测试样本,由训练样本生成多个分类树组成的随机森林,测试数据的分类结果按分类树投票多少形成的分数而定。
随机森林以随机的方式建立一个森林,森林里有很多决策树,且每棵树之间无关联,当有一个新样本进入后,让森林中没颗决策树分别各自判断,看这个样本应该属于那一类(对于分类算法)。然后看哪一类被选择最多,就选择预测此样本为那一类。
主要思想是bagging并行算法,用很多弱模型组合出一种强模型。
1、随机决策树的构造
建立每颗决策树的过程中,有2点:采样与完全分裂。首先是两个随机采样的过程,RF要对输入数据进行一下行(样本)、列(特征)采样,对于并行采样(样本)采用有放回iude方式,也就是在采样得到的样本中可以有重复。从M个特征中(列采样)随机选择出m个特征。之后就是用完全分裂的方式建立出决策树。
2、随机森林的构造
1)有N个样本,则有放回的随机选择N个样本(每次取一个)。选择好的N个样本用来训练一个决策树,作为决策树根节点处的样本。
2)当每个样本有M个属性,在决策树的每个节点需要分裂时,随机从这M个属性中选取m个属性,满足条件m<
随机森林总结
最新推荐文章于 2021-08-04 17:12:47 发布