目录
1、集成算法概述
2、Sklearn中RandomForestClassifier重要参数详解
3、Sklearn中RandomForestRegressor重要参数详解
4、附录
5、总结
1、集成算法概述:集成算法的目标是多个评估器建模的结果,汇总后得到一个综合结果,以此来获取比单个模型更好的回归或分类表现。多个模型集成成为的模型叫集成评估器,单个模型叫基评估器。通常说有三种集成算法:装袋法(Bagging)、提升法(Boosting)和stacking。装袋法的基本思想是构建多个相互独立的基评估器,然后通过预测平均或多数表决原则来决定集成评估器的结果。装袋法的典型代表就是随机森林(RandomForest)。
2、RandomForestClassifier重要参数:
n_estimators:integer, optional (default=100),森林中基评估器的数量,即树的数量。n_estimators越大模型效果越好,但达到一定程度时,精确性趋于稳定。n_estimators越大模型的计算量越大,需要的内存也越大。
random_state:int, RandomState instance or None, optional (default=None),控制树的生成模式。在DecisionTreeClassifier中random_state生成随机的一棵树,这里的参数控制的是随机生成一片森林模式。用袋装法集成时,基分类器应当是相互独立的,是不同的。
bootstrap:boolean, optional (default=True),要让基分类器尽量都不一样,一种方式是使用不同