随机森林和决策树区别_第六讲 决策树与随机森林

概念属性

信息熵:信息量度量的是一个具体事件发生了所带来的信息,而熵则是在结果出来之前对可能产生的信息量的期望——考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望。即

如果一件事情的概率很低,那么它的信息量就很大;反之,如果一件事情的概率很高,它的信息量就很低。简而言之,概率小的事件信息量大,

条件熵:在X给定的条件下,Y的条件概率分布的熵对Y的数学期望。公式为

信息增益:信息增益就是信息熵和特征条件熵的差。就是说对一个确定的数据集来说,H(X)是确定的,那H(X|Y)在Y特征一定的情况下,随机变量的不确定性越小,信息增益越大,这个特征的表现就越好.

信息增益比

基尼指数(CART)

ID3、C4.5、CART 区别

  • ID3只能处理离散型变量,而C4.5和CART都可以处理连续型变量。C4.5处理连续型变量时,通过对数据排序之后找到类别不同的.
  • C4.5实际上是对ID3进行优化,通过引入信息增益比,一定程度上对取值比较多的特征进行惩罚,避免ID3出现过拟合的特性,提升了决策树的泛化能力.
  • ID3和C4.5只能用于分类任务,而CART不仅可以用于分类,也可以应用于回归任务.
  • ID3对样本特征缺失值比较敏感(没有对应的处理机制),而C4.5和CART可以对缺失值进行不同方式的处理.

随机森林

集成学习的主要思路是先通过一定的规则生成多个学习器,再采用某种集成策略进行组合,最后综合判断输出最终结果。通过样本集扰动、输入特征扰动、输出表示扰动、算法参数扰动等方式生成多个学习器,进行集成后获得一个精度较好的"学习器"。

具有代表性的集成学习方法有Boosting,Bagging。

Boosting 采用串行的方式,每一层在训练的时候,对前一层基分类器分错的样本,给予更高的权重。测试时,根据各层分类器的结果的加权得到最终结果。代表性的算法: Adaboost、GBDT、XGBoost。

Bagging是并行的方法,它可以 : 使用相同的算法在不同的训练集上面训练多个基学习器;使用不同的训练算法训练得到多个基学习器。当所有的分类器被训练后,集成可以通过对所有分类器结果的简单聚合来对新的实例进行预测。聚合函数通常对分类是统计模式(例如硬投票分类器)或者对回归取平均。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值