随机森林
优点
- 具有极高的准确率
- 随机性的引入,使得随机森林不容易过拟合,有很好的抗噪声能力,对异常点离群点不敏感
- 能处理很高维度的数据,并且不用做特征选择
- 既能处理离散型数据,也能处理连续型数据,数据集无需规范化(归一化)
- 实现简单,训练速度快,可以得到变量重要性排序(计算每个特征在分裂时被选到的次数或者某个特征不纯度平均下降了多少)
- 容易实现并行化
- 在创建随机森林的时候,对generlization error使用的是无偏估计,不需要额外的验证集
缺点
- 随机森林已经被证明在某些噪音较大的分类或回归问题上会过拟合
- 对于有不同取值的属性的数据,取值划分较多的属性会对随机森林产生更大的影响,所以随机森林在这种数据上产出的属性权值是不可信的。
- 随机森林模型还有许多不好解释的地方,有点算个黑盒模型
Adaboost
优点
- 用于二分类或多分类的应用场景
- 在Adaboost的框架下,可以使用各种回归分类模型来构建弱学习器,非常灵活。
- 无脑化,简单,不会overfitting,不用调分类器
- 不需要归一化
- 泛化错误率低,精度高,可应用在大部分分类器上,无需调整参数
- 用于特征选择(feature selection)
缺点
- AdaBoost迭代次数也就是弱分类器数目不太好设定,可以使用交叉验证来进行确定