机器学习 07 决策树

一、决策树

程序设计中的条件分支结构就是if-else结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法。

决策树: 是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果,本质是一颗由多个判断节点组成的树

想一想这个女生为什么把年龄放在最上面判断 ! 

上面案例是女生通过定性的主观意识,把年龄放到最上面,那么如果需要对这一过程进行量化,该如何处理呢? 此时需要用到信息论中的知识: 信息熵,信息增益

二、熵

物理学上,熵 Entropy 是”混乱”程度的量度。

系统越有序,熵值越低;

系统越混乱或者分散,熵值越高。

信息:

香农:消除随机不定性的东西

小明年龄 “我今年18岁”- 信息

小华”小明明年19岁”- 不是信息

2.1 信息熵

1948年香农提出了信息熵 (Entropy)的概念。
信息理论:
1、从信息的完整性上进行的描述:
当系统的有序状态一致时,数据越集中的地方熵值越小,数据越分散的地方熵值越大。

2、从信息的有序性上进行的描述:
当数据量一致时,系统越有序,熵值越低; 系统越混乱或者分散,熵值越高

 

"信息熵

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值