机器学习总结

RandomForest 与 GBDT 的区别

- 相同点:

1.都由很多棵树组成
2.最终的结果是由多棵树一起决定的

- 不同点:
1.RandomForest中的树可以是分类树,也可以是回归树,而GBDT只能由回归树(CART)组成,这也说明GBDT各个树相加是有意义的
2.RandomForest中的树是并行生成的,而GBDT是串行生成的,GBDT中下一颗树要去拟合前一颗树的残差,所以GBDT中的树是有相关关系的,而RandomForest中的树的相关性依赖于Boostrap生成的样本子集的相关性
3.RandomForest 对异常值不敏感,GBDT敏感
4.RandomForest是通过降低模型方差来提高性能的,而GBDT是通过降低偏差来提高性能

- 随机森林

- 随机森林在bagging基础上做了修改。基本思路是:

(1)从样本集中用Bootstrap采样(有放回的采样)选出n个样本(重采样);
(2)从所有属性中随机选择k个属性,选择最佳分割属性作为节点建立CART决策树;
(3)重复以上两步m次,即建立了m棵CART决策树
(4)这m个CART形成随机森林,通过投票表决结果,决定数据属于哪一类

- 随机森林、Bagging和决策树的关系

目前的理解Bagging和随机森林的却别如2中红色字体标注所示;Bagging方法选用所有特征属性,随机森林选用所有特征属性中的k个特征属性(特征属性的一个子集)。
当然可以使用决策树作为基本分类器,但也可以使用SVM、Logistic回归等其它分类器,习惯上,这些分类器组成的“总分类器”,仍然叫做随机森林。

逻辑回归

逻辑回归损失函数由平方差改为交叉熵后,损失函数由非凸变为凸函数!求得的w更能使得损失函数接近全局最小值,而不是局部最小值!
• 异常值会给模型带来很大干扰,要剔除。
• 逻辑回归不能处理缺失值,所以之前应对缺失值进行适当处理。

分类树VS回归树

分类树指样本标签为离散的值,回归树指样本标签是连续的值

ID3和C4.5区别在于分裂树节点时使用的标准不一样,ID3使用的是信息熵增益(越大越好),C4.5使用的是信息增益比率(越大越好)

信息增益比率比信息熵多了一个分裂信息

当每个属性中每个类别都只有一个样本时,C4.5表现好

ID3和C4.5最好应用于分类

CART树可用于分类,也可用于回归,当用于分类时,使用基尼系数增益;当用于回归时,用均方误差作为loss function

路飞!路飞!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值