随机森林和决策树区别_第六讲决策树与随机森林

最新推荐文章于 2024-01-29 20:20:58 发布

weixin_39897887

最新推荐文章于 2024-01-29 20:20:58 发布

阅读量517

点赞数

文章标签：随机森林和决策树区别

概念属性

信息熵：信息量度量的是一个具体事件发生了所带来的信息，而熵则是在结果出来之前对可能产生的信息量的期望——考虑该随机变量的所有可能取值，即所有可能发生事件所带来的信息量的期望。即

。如果一件事情的概率很低，那么它的信息量就很大；反之，如果一件事情的概率很高，它的信息量就很低。简而言之，概率小的事件信息量大，

条件熵：在X给定的条件下，Y的条件概率分布的熵对Y的数学期望。公式为

信息增益：信息增益就是信息熵和特征条件熵的差。就是说对一个确定的数据集来说，H(X)是确定的，那H(X|Y)在Y特征一定的情况下，随机变量的不确定性越小，信息增益越大，这个特征的表现就越好.

信息增益比

基尼指数(CART)

ID3、C4.5、CART 区别

ID3只能处理离散型变量,而C4.5和CART都可以处理连续型变量。C4.5处理连续型变量时,通过对数据排序之后找到类别不同的.
C4.5实际上是对ID3进行优化,通过引入信息增益比,一定程度上对取值比较多的特征进行惩罚,避免ID3出现过拟合的特性,提升了决策树的泛化能力.
ID3和C4.5只能用于分类任务,而CART不仅可以用于分类,也可以应用于回归任务.
ID3对样本特征缺失值比较敏感(没有对应的处理机制),而C4.5和CART可以对缺失值进行不同方式的处理.

随机森林

集成学习的主要思路是先通过一定的规则生成多个学习器，再采用某种集成策略进行组合，最后综合判断输出最终结果。通过样本集扰动、输入特征扰动、输出表示扰动、算法参数扰动等方式生成多个学习器，进行集成后获得一个精度较好的"学习器"。

具有代表性的集成学习方法有Boosting，Bagging。

Boosting 采用串行的方式,每一层在训练的时候,对前一层基分类器分错的样本,给予更高的权重。测试时,根据各层分类器的结果的加权得到最终结果。代表性的算法: Adaboost、GBDT、XGBoost。

Bagging是并行的方法,它可以 : 使用相同的算法在不同的训练集上面训练多个基学习器;使用不同的训练算法训练得到多个基学习器。当所有的分类器被训练后,集成可以通过对所有分类器结果的简单聚合来对新的实例进行预测。聚合函数通常对分类是统计模式(例如硬投票分类器)或者对回归取平均。

weixin_39897887

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
随机森林和决策树区别_第六讲决策树与随机森林

概念属性信息熵：信息量度量的是一个具体事件发生了所带来的信息，而熵则是在结果出来之前对可能产生的信息量的期望——考虑该随机变量的所有可能取值，即所有可能发生事件所带来的信息量的期望。即。如果一件事情的概率很低，那么它的信息量就很大；反之，如果一件事情的概率很高，它的信息量就很低。简而言之，概率小的事件信息量大，条件熵：在X给定的条件下，Y的条件概率分布的熵对Y的数学期望。公式为信息增益：信...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。