优点
1、 在当前的很多数据集上,相对其他算法有着很大的优势,表现良好;
2、它能够处理很高维度的数据,并且不用做特征选择,因为特征子集是随机选择的;
3、在训练完后,它能够得出特征重要性;
4、在创建随机森林的时候,对泛化误差使用的是无偏估计,模型泛化能力强;
5、随机森林有oob(袋外数据),不需要单独换分交叉验证集;
6、训练时树与树之间是相互独立的,训练速度快,容易做成并行化方法;
7、对缺失值不敏感,如果有很大一部分的特征遗失,仍可以维持准确度。
缺点
1、随机森林在某些噪音较大的分类或回归问题上会过拟合;
2、对于有不同取值的属性的数据,取值划分较多的属性会对随机森林产生更大的影响。