Feature selection
permutation test的原理(随机排序的方式来测试某个特征的重要性):原本的表现-该特征数据的随机打乱后的表现。
在面对非线性的问题的时候会首先用Random Forest来进行初步的特征选择。
Random Forest in Action
上图一:一棵树划分情况,图二(bagging的小树的结果):bootstrap随机产生的一颗树的情况,此时有些点没有被抽样,图三(整个森林的结果):bootstrap随机产生多颗数的组合情况,边界更加平滑和具有最大边界性(边界处在圈圈与叉叉的中间位置)。
再有噪声的数据集中,较多的树的投票结果会尽量将噪声影响降到最小。
RF是一个随机演算的过程,若随机过程没有达到一个相对稳定的状态,或者对一点点变化很敏感,因而产生一些高高低低的变化,受到初始值的影响。通过考察增加一棵树减少一棵树的影响大不大来决定你的树数目够不够。
总结:RF是bagging和decision tree的结合