1 随机有放回抽样训练数据,每棵树的训练集都可能包含重复样本,
2 随机从特征中选择选择几个特征
3 有放回抽样的意义:如果不是有放回抽样,会导致训练出来的每棵树之间差异很大,而随机森林是采用投票的方式获得结果,如果树之间的差异很大,那么无异于盲人摸象。求同存异是随机森林的训练思想。
4 两个随机使得随机森林具有很好的抗干扰性,不容易陷入过拟合。
5 随机森林分类的错误率与两个因素相关:
任意两棵树的相关性:相关性越大,错误率越大
每棵树的分类能力:每棵树的分类能力越好,整体森林整体错误率越低
选择合适的特征个数是影响树之间相关性和分类能力的核心参数