#RnadomForest(sklearn学习)
在sklearn中是这样形容随机森林的:==通过在分类器构造中引入随机性来创建多样化的分类器集。各个分类器的平均预测作为输出的预测结果。==这是在说随机森林会在大样本中多几次随机抽取相同数量的数据作为训练数据,每一次抽取的数据生成一个分类器,并生成预测的结果。当所有的分类器都给出预测后,进行类似投票的形式合并结果(比如100个分类器有90个给出了预测为1,,10个预测为0,那么预测的结果即为1,也可以说是通过概率的大小得出结果)
随机森林的随机性的目的是减少森林估计量的方差。实际上,单个决策树往往会表现出较高的方差并且倾向于过度拟合。随机森林对大样本的随机多次的抽取的训练数据基本上包含了大样本的所有数据(多次抽取默认100次),这样就可以减少异常值造成的影响。最终的预测为每个分类器中预测的众数,这样减小了预测的误差(因为同样使异常值造成的影响减小了),使预测更加的准确。
随机森林的主要参数:
n_estimators:森林中决策树的个数,默认100
criterion:分类的标准 默认Gini(基尼),其公式为:
∑ i = 1 n p ( x i ) ∗ ( 1 − p ( x i ) ) \sum_{i=1}^{n}{p(xi)*(1-p(xi))} i=1∑n