决策树

决策树是一个if-then规则的集合,不断选取某一既定特征的既定取值作为分类条件,将数据集划分成一个个子集,直到最终形成叶节点。所以算法的关键步骤在于对分类特征的选择。决策树常用的学习算法有三种:ID3,C4.5和CART。其中ID3和C4.5形成的树每一层可能有大于两个的节点,每层的节点数对应于其根节点可取值的个数,通过计算信息增益或信息增益比选取最优的分类特征。而CART树是二叉树,即每次将数据集分成两个子集,CART也可以用于回归。CART在用于回归时,通过计算平方差选择最优分类值;而用于分类时,通过计算基尼指数来进行特征选择。

  • ID3

在学习过程中,选择信息增益最大的特征来进行分类。其中信息增益为经验熵与条件经验熵的差值。

熵 H(D):表示随机变量D发生的不确定性,所以与D发生的概率有关,概率越小或越大,熵都会很小,因为D会有大概率发生或不发生,其不确定性低。

条件熵 H(D|A):在A发生的条件下,D发生的不确定性。

所以信息增益g(D,A)表示得知A的发生,对D发生的不确定性的减少程度,所以g(D,A)越大,表示选择特征的可靠性越高。具体计算公式如下:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值