决策树分类基本原理加案列说明

目录

1.认识决策树

2.决策树分类原理

2.1 熵

2.1.1 概念

2.1.2 案例

2.2 决策树的划分依据-----信息增益

2.2.1 概念

2.2.2 案列:

2.3 决策树的划分依据二-----信息增益率

2.3.1 概念

2.3.2 案列

2.3.3 为什么使⽤C4.5要好

3 Cart剪枝

3.1 为什么要剪枝

3.2 常用的剪枝方法

3.2.1预剪枝

3.2.2 后剪枝


目录

1.认识决策树

2.决策树分类原理

2.1 熵

2.1.1 概念

2.1.2 案例

2.2 决策树的划分依据-----信息增益

2.2.1 概念

2.2.2 案列:

2.3 决策树的划分依据二-----信息增益率

2.3.1 概念

2.3.2 案列

2.3.3 为什么使⽤C4.5要好

3.1 为什么要剪枝

3.2 常用的剪枝方法

3.2.1预剪枝

3.2.2 后剪枝


1.认识决策树

什么是决策树呢?

决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-else结构,最早的决策树就是利用这类结构分割数据的一类分类学习方法。

决策树:

  • 是一种属性结构,本质是一颗由多个判断节点组成的树
  • 其中每个内部节点表示一个属性上的判断
  • 每个分支代表一个判断结果的输出
  • 最后每个叶节点代表一种分类结果

怎么理解这句话呢?通过一个对话例子

想⼀想这个⼥⽣为什么把年龄放在最上⾯判断! ! ! ! ! ! ! ! !
上⾯案例是⼥⽣通过定性的主观意识, 把年龄放到最上⾯, 那么如果需要对这⼀过程进⾏量化, 该如何处理呢?
此时需要⽤到信息论中的知识: 信息熵, 信息增益

 

2.决策树分类原理

2.1 熵

2.1.1 概念

物理学上,熵Entropy是“混乱”程度的量度。

如图所示,系统越有序,熵值越低;系统越混乱或者分散,熵值越高

1948年香农提出了信息熵的概念

信息理论:
1、 从信息的完整性上进⾏的描述:
系统的有序状态⼀致时, 数据越集中的地⽅熵值越⼩, 数据越分散的地⽅熵值越⼤。
2、 从信息的有序性上进⾏的描述:
数据量⼀致时, 系统越有序, 熵值越低; 系统越混乱或者分散, 熵值越⾼
 

"信息熵" (information entropy)是度量样本集合纯度最常⽤的⼀种指标。
假定当前样本集合 D 中第 k 类样本所占的⽐例为

, D为样本的所有数量, 为第k类样本的数量。
则 D的信息熵定义为((log是以2为底, lg是以10为底)
:


其中: Ent(D) 的值越⼩, 则 D 的纯度越⾼.

2.1.2 案例

案例:
假设我们没有看世界杯的⽐赛, 但是想知道哪⽀球队会是冠军,
我们只能猜测某⽀球队是或不是冠军, 然后观众⽤对或不对来回答,
我们想要猜测次数尽可能少, 你会⽤什么⽅法?<

  • 2
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值