目录
目录
1.认识决策树
什么是决策树呢?
决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-else结构,最早的决策树就是利用这类结构分割数据的一类分类学习方法。
决策树:
- 是一种属性结构,本质是一颗由多个判断节点组成的树
- 其中每个内部节点表示一个属性上的判断
- 每个分支代表一个判断结果的输出
- 最后每个叶节点代表一种分类结果
怎么理解这句话呢?通过一个对话例子
想⼀想这个⼥⽣为什么把年龄放在最上⾯判断! ! ! ! ! ! ! ! !
上⾯案例是⼥⽣通过定性的主观意识, 把年龄放到最上⾯, 那么如果需要对这⼀过程进⾏量化, 该如何处理呢?
此时需要⽤到信息论中的知识: 信息熵, 信息增益
2.决策树分类原理
2.1 熵
2.1.1 概念
物理学上,熵Entropy是“混乱”程度的量度。
如图所示,系统越有序,熵值越低;系统越混乱或者分散,熵值越高。
1948年香农提出了信息熵的概念
信息理论:
1、 从信息的完整性上进⾏的描述:
当系统的有序状态⼀致时, 数据越集中的地⽅熵值越⼩, 数据越分散的地⽅熵值越⼤。
2、 从信息的有序性上进⾏的描述:
当数据量⼀致时, 系统越有序, 熵值越低; 系统越混乱或者分散, 熵值越⾼。
"信息熵" (information entropy)是度量样本集合纯度最常⽤的⼀种指标。
假定当前样本集合 D 中第 k 类样本所占的⽐例为 ,
, D为样本的所有数量, 为第k类样本的数量。
则 D的信息熵定义为((log是以2为底, lg是以10为底) :
其中: Ent(D) 的值越⼩, 则 D 的纯度越⾼.
2.1.2 案例
案例:
假设我们没有看世界杯的⽐赛, 但是想知道哪⽀球队会是冠军,
我们只能猜测某⽀球队是或不是冠军, 然后观众⽤对或不对来回答,
我们想要猜测次数尽可能少, 你会⽤什么⽅法?<