决策树-理论理解

机器学习中分类和预测算法的评估

准确率:例如分类达到的准确率是多少
速度:准确率高,但是算法复杂度高不高(时间快不块)
强壮行:当样本集数据与一些噪音的时候或者有一些值缺失的时候,算法表现的是不是很好。
可规模性:当一下算法在小的数据集中表现良好,但是当数据集成指数形式增长的时候,变成很大的数据集时,算法的表现如何,是否可规模化。
可解释性:当算法做出一些特征值的选择和归类的时候,我们是否能容易的解释这种归类和我们的直觉和规律是不是相符的。很容易解释模型。

1、什么是决策树、判定树(decision tree)?

判定树是一个类似于流程图的树结构:其中,每个内部节点表示一个属性上的测试,每个分支代表属性输出,每个叶子节点代表类或类分布,树的最顶端代表根节点。

是一个树结构,
每个非叶子节点 表示一个特征属性上的测试,
每个分支代表这个特征属性在某个值域上的输出,
每个叶子节点存放一个类别,表示标签。
使用决策树进行决策的过程就是从根节点开始,
测试待分类项中响应的特征属性,并按照其值选择输出分支,直到到达叶子节点,
将叶子节点存放的类别作为决策结果。
决策树
1-----> overlook ? (属性值类别类)天气如何?(值域输出) 三个类别 sunny overcast rain
2------> humidity? (属性值连续变量) 湿度怎么样? (值域输出离散化(注意:设置阈值:<70 >=70))二个区间
3------> windy? (属性类别类)是否刮风……

分类器 - 决策树

2、构建决策树基本算法(大致了解)

样本集
决策树

3、熵(entropy)概念:(构建决策树之前了解什么叫熵)熵概念

举例子:
在这里插入图片描述
世界杯的球队有32个队,猜多少次?我如果这样猜:(假设已知世界冠军),
冠军队,在1~16之间,猜了第1次,正确->
冠军队,在8~16之间,猜了第2次,错误-> (冠军队在1~8之间)
冠军队,在1~4之间,猜了第3次正确->
……
最多猜5次 就找到了冠军队。(最后一次不用猜)
这其实是一个二分法

比特(bit)来衡量信息的多少。
p1 第一个队夺冠的概率 p2第二个队伍夺冠的概率……
p1*log p1 = 第一个队信息的度量=bit 衡量信息的多少
在这里插入图片描述
假设每个队的夺冠的概率相等 为1/36(不确定性最大) 那么信息的度量之和为6(每一个队的信息度量之和)
但是现实生活中有的队伍获胜的概率比其他队伍大,我们可能不需要猜6次就能猜出。(算出来的信息的度量之和=熵总是小于6(数学计算一下得出的结论))
在这里插入图片描述
变量的不确定越大,熵也就越大

决策树归纳算法(ID3)

1970-1980 , JRoss.Quinlan ,ID3算法

决策树算法原理

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
重复

算法:
树以代表训练样本的单个结点开始(步骤1)。
如果样本都在同一个类,则该结点成为树叶,并用该类标号(步骤2 和3)。
否则,算法使用称为信息增益的基于熵的度量作为启发信息,选择能够最好地将样本分类的属性(步骤6)。该属性成为该结点的“测试”或“判定”属性(步骤7)。在算法的该版本中,
所有的属性都是分类的,即离散值。连续属性必须离散化设定阈值。
对测试属性的每个已知的值,创建一个分枝,并据此划分样本(步骤8-10)。
算法使用同样的过程,递归地形成每个划分上的样本判定树。一旦一个属性出现在一个结点上,就不必该结点的任何后代上考虑它(步骤13)(剩下的属性没有年龄)。
停止条件
递归划分步骤仅当下列条件之一成立停止:
(a) 给定结点的所有样本属于同一类(步骤2 和3)。
(b) 没有剩余属性可以用来进一步划分样本(步骤4)。在此情况下,使用多数表决(步骤5)。
这涉及将给定的结点转换成树叶,并用样本中的多数所在的类标记它。替换地少数服从多数,可以存放结点样本的类分布。
© 分枝
test_attribute = a i 没有样本(步骤11)。在这种情况下,以 samples 中的多数类
创建一个树叶(步骤12)

4、 其他算法:

C4.5: Quinlan
Classification and Regression Trees (CART): (L. Breiman, J. Friedman, R. Olshen, C. Stone)
共同点:都是贪心算法,自上而下(Top-down approach)
区别:属性选择度量方法不同: C4.5 (gain ratio), CART(gini index), ID3 (Information Gain信息增益)

5、 如何处理连续性变量的属性?

连续性变量离散化(找一个阈值)

6、树剪枝叶 (避免overfitting)

overfitting 过拟合 树的结构太细化了,训练集上特别好,但是测试集上很差,过分追求细节。
6.1 先剪枝
6.2 后剪枝

7、决策树的优点:

直观,便于理解,小规模数据集有效

8、 决策树的缺点:

处理连续变量不好(离散化 就要选择阈值,阈值的选择影响特别大)
类别较多时,错误增加的比较快
可规模性一般(小数据集上特别好,大数据上算法复杂度特别大。)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值