1.随机森林介绍
随机森林是在建立在决策树之上的。只要明白了决策树的概念以及算法,那么随机森林就特别简单了。随机森林就是用多个决策树的结果来决定最终的结果,所以在训练过程中,我们会利用训练数据生成多个决策树。其算法的基本步骤如下:
(1)原始训练集为N,应用bootstrap法有放回地随机抽取k个新的自助样本集,并由此构建k棵分类树,每次未被抽到的样本组成了k个袋外数据;
(2)设有mall个变量,则在每一棵树的每个节点处随机抽取mtry个变量(mtry n mall),然后在mtry中选择一个最具有分类能力的变量,变量分类的阈值通过检查每一个分类点确定;
(3)每棵树最大限度地生长, 不做任何修剪;
(4)将生成的多棵分类树组成随机森林,用随机森林分类器对新的数据进行判别与分类,分类结果按树分类器的投票多少而定。
第1步,我们具体做法是假如有N个数据,我们构建每个决策树的时候,只随机抽取其中的一部分数据,假如2/3,其余的1/3我们作为该随机树的袋外数据,也就是测试数据。至于有放回的抽取,是对于每个数据,可能在不同的决策树中都存在。
第2步,每棵树的每个节点