机器学习总结

feng神

于 2018-08-27 23:00:12 发布

阅读量177

点赞数

分类专栏：机器学习文章标签：个人总结

本文链接：https://blog.csdn.net/weixin_40499753/article/details/82120528

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

RandomForest 与 GBDT 的区别

- 相同点：

1.都由很多棵树组成
2.最终的结果是由多棵树一起决定的

- 不同点：
1.RandomForest中的树可以是分类树，也可以是回归树，而GBDT只能由回归树（CART）组成，这也说明GBDT各个树相加是有意义的
2.RandomForest中的树是并行生成的，而GBDT是串行生成的，GBDT中下一颗树要去拟合前一颗树的残差，所以GBDT中的树是有相关关系的，而RandomForest中的树的相关性依赖于Boostrap生成的样本子集的相关性
3.RandomForest 对异常值不敏感，GBDT敏感
4.RandomForest是通过降低模型方差来提高性能的，而GBDT是通过降低偏差来提高性能

- 随机森林

- 随机森林在bagging基础上做了修改。基本思路是：

（1）从样本集中用Bootstrap采样（有放回的采样）选出n个样本（重采样）；
（2）从所有属性中随机选择k个属性，选择最佳分割属性作为节点建立CART决策树；
（3）重复以上两步m次，即建立了m棵CART决策树
（4）这m个CART形成随机森林，通过投票表决结果，决定数据属于哪一类

- 随机森林、Bagging和决策树的关系

目前的理解Bagging和随机森林的却别如2中红色字体标注所示；Bagging方法选用所有特征属性，随机森林选用所有特征属性中的k个特征属性（特征属性的一个子集）。
当然可以使用决策树作为基本分类器，但也可以使用SVM、Logistic回归等其它分类器，习惯上，这些分类器组成的“总分类器”，仍然叫做随机森林。

逻辑回归

逻辑回归损失函数由平方差改为交叉熵后，损失函数由非凸变为凸函数！求得的w更能使得损失函数接近全局最小值，而不是局部最小值！
• 异常值会给模型带来很大干扰，要剔除。
• 逻辑回归不能处理缺失值，所以之前应对缺失值进行适当处理。

分类树VS回归树

分类树指样本标签为离散的值，回归树指样本标签是连续的值

ID3和C4.5区别在于分裂树节点时使用的标准不一样，ID3使用的是信息熵增益（越大越好），C4.5使用的是信息增益比率（越大越好）

信息增益比率比信息熵多了一个分裂信息

当每个属性中每个类别都只有一个样本时，C4.5表现好

ID3和C4.5最好应用于分类

CART树可用于分类，也可用于回归，当用于分类时，使用基尼系数增益；当用于回归时，用均方误差作为loss function

路飞！路飞！

feng神

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习总结

RandomForest 与 GBDT 的区别- 相同点：1.都由很多棵树组成 2.最终的结果是由多棵树一起决定的- 不同点： 1.RandomForest中的树可以是分类树，也可以是回归树，而GBDT只能由回归树（CART）组成，这也说明GBDT各个树相加是有意义的 2.RandomForest中的树是并行生成的，而GBDT是串行生成的，GBDT中下一颗树要去拟合前一颗树的残差...
复制链接

扫一扫

专栏目录