本文从统计学角度讲解了CART(Classification And Regression Tree), Bagging(bootstrap aggregation), Random Forest Boosting四种分类器的特点与分类方法,参考材料为密歇根大学Ji Zhu的pdf与组会上王博的讲解。
- CART(Classification And Regression Tree)
Breiman, Friedman, Olshen & Stone (1984), Quinlan (1993)
思想:递归地将输入空间分割成矩形
优点:可以进行变量选择,可以克服missing data,可以处理混合预测
缺点:不稳定
example:
对于下面的数据,希望分割成红色和绿色两个类,原本数据生成是这样的:
Red class: x1^2+x2^2>=4.6
Green class: otherwise









经过不断分割可以得到最后的分类树:

- 那么怎么分割才是最好的呢?即怎样