一、决策树
程序设计中的条件分支结构就是if-else结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法。
决策树: 是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果,本质是一颗由多个判断节点组成的树。
想一想这个女生为什么把年龄放在最上面判断 !
上面案例是女生通过定性的主观意识,把年龄放到最上面,那么如果需要对这一过程进行量化,该如何处理呢? 此时需要用到信息论中的知识: 信息熵,信息增益。
二、熵
物理学上,熵 Entropy 是”混乱”程度的量度。
系统越有序,熵值越低;
系统越混乱或者分散,熵值越高。
信息:
香农:消除随机不定性的东西
小明年龄 “我今年18岁”- 信息
小华”小明明年19岁”- 不是信息
2.1 信息熵
1948年香农提出了信息熵 (Entropy)的概念。
信息理论:
1、从信息的完整性上进行的描述:
当系统的有序状态一致时,数据越集中的地方熵值越小,数据越分散的地方熵值越大。
2、从信息的有序性上进行的描述:
当数据量一致时,系统越有序,熵值越低; 系统越混乱或者分散,熵值越高
"信息熵