摘要
今天介绍决策树以及 信息论基础首先我们看到 信息论基础可以分为
- 熵
是接收的每条消息中包含的资讯的平均量,又被称为资讯熵,信源熵,平均资讯本体量。这里,「消息」代表来自分布或数据流中的事件,样本或特征。(熵最好理解为不确定性的量度而不是确定性的量度,因为越随机的信源的熵越大。) - 联合熵
- 联合熵的定义,代表X,Y同时发生的不确定性
- 条件熵
在资讯理论中,条件熵描述了在已知第二个随机变量 X的值的前提下,随机变量 Y的信息熵还有多少。同其它的信息熵一样 ,条件熵也用Sh、nat、Hart等信息单位表示。基于}X条件的Y的信息熵,用H(Y | X)表示。
- 信息增益
- 熵 - 条件熵在一个条件下,信息不确定性减少的程度!通俗地讲,X(明天下雨)是一个随机变量,X的熵可以算出来, Y(明天阴天)也是随机变量,在阴天情况下下雨的信息熵我们如果也知道的话(此处需要知道其联合概率分布或是通过数据估计)即是条件熵。两者相减就是信息增益!原来明天下雨例如信息熵是2,条件熵是0.01(因为如果是阴天就下雨的概率很大,信息就少了),这样相减后为1.99,在获得阴天这个信息后,下雨信息不确定性减少了1.99!是很多的!所以信息增益大!也就是说,阴天这个信息对下雨来说是很重要的!所以在特征选择的时候常常用信息增益,如果IG(信息增益大)的话那么这个特征对于分类来说很关键~~ 决策树就是这样来找特征的!
- 基尼不纯度
基尼不纯度是用于决策树编程中的一个专业术语。
基尼不纯度,是指将来自集合中的某种结果随机应用在集合中,某一数据项的预期误差率。
是在进行决策树编程的时候,对于混杂程度的预测中ÿ