一、随机森林的分类器 (RandomForestClassififier)
随机森林分类器的重要参数:criterion、 splitter、max_depth、min_samples_leaf &min_samples_split、max_features & min_impurity_decrease具体的使用可参考DecisionTreeClassifier重要参数、属性、接口(实现一棵树,随机性参数)这篇的使用。
n_estimators:森林中数木的数量,即基评估器的数量,这个参数的数量越大,模型的效果越好。
# 随机森林的重要属性之一:estimators_,查看森林中树的状况
例如:rfc.estimators_
random_state :用来表示生成同一片森林。
bootstrap :
bootstrap
参数默认
True
,代表采用这种有放回的随机抽样技术。
oob_score :
袋外数据
(out of bag data
,简写为
oob)
。
在使用随机森林时,我们可以不划分测试集和训练集,只需要用袋外数据来测试我们的模型即可。
oob_score_来查看我们的在袋外数据上测试的结果
如:
rfc = RandomForestClassifier(n_estimators=25,oob_score=True)
rfc = rfc.fit(wine.data,wine.target)
#重要属性oob_score_
rfc.oob_score_
重要属性:.estimators_ 和 .oob_score_
有四个常用接口:apply, fit, predict和score。
二、随机森林的回归器(RandomForestRegressor )
criterion
回归树衡量分枝质量的指标,支持的标准有三种:
1
)输入
"mse"
使用均方误差
mean squared error(MSE),被看作是一种损失。
2
)输入
“friedman_mse”
使用费尔德曼均方误差
3
)输入
"mae"
使用绝对平均误差
MAE
(
mean absolute error
)
在回归树中,
MSE
不只是我们的分枝质量衡量指标,也是我们最常用的衡
量回归树回归质量的指标.
回归树的接口
score
返回的是
R
平方,并不是
MSE
。
重要属性和接口:
apply, fifit, predict
和
score
R平方的取值是负无穷到1,虽然均方误差永远为正,但是sklearn当中使用均方误差作为评判标准时,却是计算“负均方误差”。
没有
predict_proba
这个接口
三、注意事项:
在sklearn中sklearn.impute.SimpleImputer
来轻松地将均值,中值,或者其他最常用的数值填补到数据中。