【机器学习应用】【Python】随机森林
**随机森林(Randm Forest)**是解决决策树过拟合问题的方式之一,多个决策树共同决策,从而减小耽搁决策树过拟合的影响。随机森林的构造方式主要有两种:数据集的随机或特征选取的随机。
构造随机森林
超参数
构建随机森林模型,我们需要考虑三个关键的参数:
n_estimators
决定一个森林由多少棵树组成。默认为100.
max_samples
决定训练一棵决策树需要多少数据集。常采用的方法叫做有放回的抽样(bootstrap sample),即允重复抽取同一个数据。bootstrap=True
时,默认用所有数据集训练。
max_features
决定每个样本选择多少特征。当max_features
等于特征总数时,就丧失了随机性。通常而言,分类问题的max_features
可设为 n _ f e a t u r e s \sqrt{n\_features} n_features