RandomForest 与 GBDT 的区别
- 相同点:
1.都由很多棵树组成
2.最终的结果是由多棵树一起决定的
- 不同点:
1.RandomForest中的树可以是分类树,也可以是回归树,而GBDT只能由回归树(CART)组成,这也说明GBDT各个树相加是有意义的
2.RandomForest中的树是并行生成的,而GBDT是串行生成的,GBDT中下一颗树要去拟合前一颗树的残差,所以GBDT中的树是有相关关系的,而RandomForest中的树的相关性依赖于Boostrap生成的样本子集的相关性
3.RandomForest 对异常值不敏感,GBDT敏感
4.RandomForest是通过降低模型方差来提高性能的,而GBDT是通过降低偏差来提高性能
- 随机森林
- 随机森林在bagging基础上做了修改。基本思路是:
(1)从样本集中用Bootstrap采样(有放回的采样)选出n个样本(重采样);
(2)从所有属性中随机选择k个属性,选择最佳分割属性作为节点建立CART决策树;
(3)重复以上两步m次,即建立了m棵CART决策树
(4)这m个CART形成随机森林,通过投票表决结果,决定数据属于哪一类
- 随机森林、Bagging和决策树的关系
目前的理解Bagging和随机森林的却别如2中红色字体标注所示;Bagging方法选用所有特征属性,随机森林选用所有特征属性中的k个特征属性(特征属性的一个子集)。
当然可以使用决策树作为基本分类器,但也可以使用SVM、Logistic回归等其它分类器,习惯上,这些分类器组成的“总分类器”,仍然叫做随机森林。
逻辑回归
逻辑回归损失函数由平方差改为交叉熵后,损失函数由非凸变为凸函数!求得的w更能使得损失函数接近全局最小值,而不是局部最小值!
• 异常值会给模型带来很大干扰,要剔除。
• 逻辑回归不能处理缺失值,所以之前应对缺失值进行适当处理。
分类树VS回归树
分类树指样本标签为离散的值,回归树指样本标签是连续的值
ID3和C4.5区别在于分裂树节点时使用的标准不一样,ID3使用的是信息熵增益(越大越好),C4.5使用的是信息增益比率(越大越好)
信息增益比率比信息熵多了一个分裂信息
当每个属性中每个类别都只有一个样本时,C4.5表现好
ID3和C4.5最好应用于分类
CART树可用于分类,也可用于回归,当用于分类时,使用基尼系数增益;当用于回归时,用均方误差作为loss function