Decision Trees 决策树
Created: Apr 14, 2020 5:28 PM
什么是决策树?
决策树以树的结构形式来构建分类或者回归模型。树的决策从根(开始)到叶节点。决策树易于过度拟合,可以使用剪枝来简化模型。
假如我们要编写一个APP 推荐引擎,我们的任务是根据现有的数据,向人们推荐他们最有可能下载的APP,左边的表格是六个人的数据,性别、职业、和他们下载的APP。
我们可以建立下图右边的这样一棵树,先建立一个职业节点,如果是学生那么就推荐Pokemon Go,如果是工作,再创建一个性别的节点,女生推荐whatapp,男生推荐snapchat
![c59cc3e40a589c304c618fc2bf54c51a.png](https://i-blog.csdnimg.cn/blog_migrate/3f6eab298a05ba14ced8401c6a0a1e03.jpeg)
另外一个例子是根据考生成绩和平时的成绩来判断学生是否被录取,我们可以用同样的方法来建立一棵树。
![4197157cf7981eacdebfe4e676484b4a.png](https://i-blog.csdnimg.cn/blog_migrate/c000582464bcca501db46d794fc52d64.jpeg)
树构建算法 Tree construction algorithms
- ID3 用于分类
- C4.5 同于分类
- C5.0 与C4.5相比,内存更少,构建的规则集更小,同时更加准确。
- CART (Classification and Regression Trees)可以用于分类和回归
共同点:都是贪心算法,自上而下(Top-down approach)
区别:属性选择度量方法不同: C4.5 (gain ratio), CART(gini index), ID3 (Information Gain)
Entropy 熵
熵是一个物理学概念,如果系统中的粒子有许多可能移动的位置,则系统具有很高的熵,如果系统是刚性,粒子活动低,则系统具有较低的熵。
例如,处于固态、液态、和气态的水具有不同的熵,冰中的分子必须保留在晶格中刚性系统,因此冰的熵低。 水中的分子具有更多的运动位置,因此液态水具有中等
熵。 水蒸气中的分子几乎可以到达所需的任何位置,因此水蒸气具有很高的熵
![388727c189f08677bba84e8f61301827.png](https://i-blog.csdnimg.cn/blog_migrate/1626d9756eff28534b47f6fa1f022440.jpeg)