RandomForestClassifier:
from sklearn.ensemble import RandomForestClassifier
RandomForestClassifier(n_estimators=100,bootstrap=True,oob_score=False,n_jobs=1,warm_start=False ,class_weight=None )
重要参数:
n_estimators:决策树的个数,越多越好,但是性能就会越差,至少100左右可以达到可接受的性能和误差率。
bootstrap:是否进行又放回采样。
oob_score:袋外数据,即在某次决策树训练中没有被bootstrap选中的数据。多单个模型的参数训练,我们知道可以用cross validation(cv)来进行,但是特别消耗时间,而且对于随机森林这种情况也没有大的必要,所以就用这个数据对决策树模型进行验证,算是一个简单的交叉验证。性能消耗小,但是效果不错。
n_jobs:并行job个数。这个在ensemble算法中非常重要,尤其是bagging(而非boosting,因为boosting的每次迭代之间有影响,所以很难进行并行化),因为可以并行从而提高性能。n=1不并行;n= n n个并行;n= -1 CPU有多少core,就启动多少job。
warm_start:热启动,决定是否使用上次调用该类的结果。
cl