id3决策树_实用数学| ID3决策树

48324aaf67412f283f5fc8856e969fb4.png

b83a9ba8-3533-eb11-8da9-e4434bdf6706.svg b83a9ba8-3533-eb11-8da9-e4434bdf6706.svg

01

bb3a9ba8-3533-eb11-8da9-e4434bdf6706.svg b83a9ba8-3533-eb11-8da9-e4434bdf6706.svg

简介       

ID3算法是一种贪心算法,最早由罗斯昆(J. Ross Quinlan)于1975年在悉尼大学提出,算法的核心是“信息熵”。ID3算法通过计算每个属性的信息增益,认为信息增益高的是好属性,每次划分选取信息增益最高的属性为划分标准,重复这个过程,直至生成一个能完美分类训练样例的决策树。

b83a9ba8-3533-eb11-8da9-e4434bdf6706.svg b83a9ba8-3533-eb11-8da9-e4434bdf6706.svg

02

bb3a9ba8-3533-eb11-8da9-e4434bdf6706.svg b83a9ba8-3533-eb11-8da9-e4434bdf6706.svg

贪心算法

贪心算法是一种对某些求最优解问题的更简单、更迅速的设计技术。贪心算法的特点是一步一步地进行,常以当前情况为基础根据某个优化测度作最优选择,而不考虑各种可能的整体情况,省去了为找最优解要穷尽所有可能而必须耗费的大量时间。贪心算法采用自顶向下,以迭代的方法做出相继的贪心选择,每做一次贪心选择,就将所求问题简化为一个规模更小的子问题,通过每一步贪心选择,可得到问题的一个最优解。

b83a9ba8-3533-eb11-8da9-e4434bdf6706.svg b83a9ba8-3533-eb11-8da9-e4434bdf6706.svg

03

bb3a9ba8-3533-eb11-8da9-e4434bdf6706.svg b83a9ba8-3533-eb11-8da9-e4434bdf6706.svg

决策树

决策树是对数据进行分类,以此达到预测的目的。该决策树方法先根据训练集数据形成决策树,如果该树不能对所有对象给出正确的分类,那么选择一些例外加入到训练集数据中,重复该过程一直到形成正确的决策集。决策树代表着决策集的树形结构。

决策树类似于流程图的一个树形结构。树的最顶层是根结点。其中每个内部结点表示在一个属性上的测试,每个分支代表一个属性的输出,每个叶子结点代表类或者类的分布。

8efb20e5779197baab0bd8b57c291d0d.png

决策树的优缺点:

优点:直观,便于理解,小规模数据集有效。

缺点:处理连续变量不好;类别较多时,错误增加的比较快(算法复杂度大);可规模性一般。

b83a9ba8-3533-eb11-8da9-e4434bdf6706.svg b83a9ba8-3533-eb11-8da9-e4434bdf6706.svg

04

bb3a9ba8-3533-eb11-8da9-e4434bdf6706.svg b83a9ba8-3533-eb11-8da9-e4434bdf6706.svg

信息熵

1948年,香农提出了“信息熵”的概念,描述了信源的不确定度,解决了对信息的量化度量的问题。香农指出,任何信息都存在冗余,冗余大小与信息中每个符号(数字、字母或单词)的出现概率或者说不确定性有关。即信息的度量就等于不确定性的大小。通常,一个信源发送出什么符号是不确定的,衡量它可以根据其出现的概率来度量。概率大,出现机会多,不确定性小;反之不确定性就大。比特(bit)来衡量信息的多少,用P(Xi)表示一个某个符号出现的概率,那么信息熵H(X)的值就是:

40a1ecfb6ac550f5eca4beeada05ab2f.png

变量的不确定性越大,熵也就越大,信息熵的取值范围是0到1之间。

b83a9ba8-3533-eb11-8da9-e4434bdf6706.svg b83a9ba8-3533-eb11-8da9-e4434bdf6706.svg

05

bb3a9ba8-3533-eb11-8da9-e4434bdf6706.svg b83a9ba8-3533-eb11-8da9-e4434bdf6706.svg

ID3算法

  ID3算法的核心是在决策树各个节点上应用信息增益准则选择特征递归地构建决策树。设有随机变量(X, Y),其联合概率分布为:

c2f9b312d8161781d4dd974577750264.png

条件熵:

条件熵H(Y|X)表示在已知随机变量X的条件下,随机变量Y的不确定性。随机变量X给定的条件下随机变量Y的条件熵H(Y|X),定义为X给定条件下Y的条件概率分布的熵对X的数学期望:

66f8a400912575d01929d7b1241d6865.png

当熵和条件熵中的概率由数据估计得到时(如极大似然估计),所对应的熵与条件熵分别称为经验熵和经验条件熵。

信息增益:

信息增益表示由于得知特征A的信息后的数据集D的分类不确定性减少的程度,定义为:

31d92b4ac838ee32ca820ce91f750571.png

即集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(H|A)之差。选择划分后信息增益大的作为划分特征,说明使用该特征后划分得到的子集纯度越高,即不确定性越小。因此我们总是选择当前使得信息增益最大的特征来划分数据集。

资料来源

https://baike.baidu.com/item/ID3算法/5522381?fr=aladdin

https://my.oschina.net/u/3470937/blog/3009396

https://shuwoom.com/?p=1452

https://baike.baidu.com/item/贪心算法/5411800?fr=aladdin

c1054cbaf51f478d75fb5cd0c8293140.png

本期文案|芃

本期排版|芃

实用数学|超级实用的距离判别法

实用数学| 排队论模型的简介与构建

实用数学|第十期  最短路径模型

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值