参考文章:
https://blog.csdn.net/zjuPeco/article/details/77371645
- 基本原理
- https://www.cnblogs.com/maybe2030/p/4585705.html
两个随机抽样:
1数据集又放回随机抽样,生成多个训练集(bootstrap)
2对每个数据集的特征随机抽样
得到的每个样本集采用决策树的划分方法生成多个决策树,不剪枝
得到的随机森林对测试集测试,用票选法决定结果
- 特征重要性评估
用基尼指数评价
程序:
importance =forest.feature_importance_