随机森林(RandomForest):基于bagging集成的树模型
(一)基本原理
RF使用自助采样法(行采样)得到不同的训练子集,然后在子集上学习基学习器(CART树)。在建立CART树时,不是在所有特征中选择最优切分点,而是随机选择特征子集(列采样)然后在该子集中选择最优特征来分裂CART树。得到一系列基学习器后,综合它们的预测结果,作为集成模型的最终输出。
行采样、列采样的目的:增加随机性,从而降低集成模型的方差(偏差有所提高) 【本质是防止模型过拟合】
(二)特点
(优点):可并行训练数据,在速度上有优势;可处理高维数据,无需特征选择
(缺点):在噪声较大的分类或者回归问题上容易过拟合
(三)重要参数
n_estimators(基学习器数目)
max_depth(树模型最大深度) + max_features(切分树时特征子集中特征数目)+min_samples_split(分割节点含有的最小样本数)
(四)代码实现和函数调用
<