1.Random Forest 的随机性体现在哪些方面?
相较于普通的决策树而言,从结点的特征集合中随机选取一个包含 k个属性的子集,再从这个子集中
选择一个最优划分,不是遍历所有的特征。
随机性体现在:在构建基学习器的过程中,随机选择样本、随机选择特征、从所有特征中随机选取
选取一个包含 k个属性的子集。
2.训练同样的数据集,Random Forest 为什么比 Bagging 的效率高?
因为在划分节点时,随机森林只选取了部分特征进行划分,Bagging 是在所有的特征上进行遍历,
因此效率会更高。
3.ExtraTrees 和 Random Forest 的不同之处在哪里?
随机森林是从结点的特征集合中随机选择一个包含 k个属性的子集,再从这个子集中选择一个
最优划分。而ExtraTrees是从k个属性的子集中,每个属性上随机选择一个阈值,再选一个最优
划分,这较于随机森林具有更高的随机性,具有更强的泛化能力,因此具有更快的训练速度。
也可以这么表达:
ExtraTreesRandom Forest 在节点划分时,虽然都是选取了 k 个特征子集,但是ExtraTrees 在
每个特征上不再遍历所有阈值,而是随机选取一个阈值,再比对这k个子集上一共k个阈值的结果,
选择最优划分