决策树算法

一、决策树概念
决策树是一种机器学习的方法。决策树的生成算法有ID3, C4.5和C5.0等。决策树是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果。
决策树是一种十分常用的有监督学习分类方法。

决策树的生成主要分以下两步,这两步通常通过学习已知分类结果的有标签样本来实现。

节点的分裂:一般当一个节点所代表的属性无法给出判断时,则选择将这一节点分成2个子节点(如不是二叉树的情况会分成n个子节点)

阈值的确定:选择适当的阈值使得分类错误率最小 (Training Error)。

二、决策树适用场景:

决策树能够生成清晰的基于特征(feature)选择不同预测结果的树状结构,希望更好的理解手上的数据的时候往往可以使用决策树,在实际应用中,受限于它的简单性,决策树更大的用处是作为一些更有用的算法的基石,例如随机森林

三、决策树优缺点:

(1) 计算复杂度不高,输出结果易于理解

以ID3为例,每次运算都是基于某一列特征,特征计算完后,下次计算不考虑该最优特征,并且通过适当剪支可以简化复杂度

(2) 对中间值的缺失不敏感

(3) 可以处理不相关特征数据

是基于每一列特征来计算,不考虑特征之间的依赖关系

四、信息熵的深入理解:
信息熵用于度量信息的混乱程度,信息越混乱说明能够包含的信息量越多,则熵越大,例如一个声波,我们可以通过傅里叶变换分析其频谱看到其中的大量的信息;信息越有序说明包含的信息量越少,则熵越小,例如一条直线,这个信息太少了,则它的熵也非常小。

在数学上,对于任意一个向量,对其计算信息熵,可以证明出:当向量中每个值都相同的时候,熵最小。这样数学和通俗理解就对应上了。
 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值