前言:此次新上市酸奶的数据分析需要构建决策树。决策树由一个根节点、若干个内部节点和叶节点构成,其中,叶节点对应决策结果,其他节点(根节点、内部节点)对应属性判断规则。决策树本质上是一层一层地根据条件递归做判断。
计算过程:
第一步:求出“买吗”的熵
![294ae794d9184bba7b50bb44f3ed403f.png](https://img-blog.csdnimg.cn/img_convert/294ae794d9184bba7b50bb44f3ed403f.png)
第二步:分别求出性别、婚姻状况、收入水平的熵和信息增益
![a85b47e35629b2b9eca326dffb1f0bd8.png](https://img-blog.csdnimg.cn/img_convert/a85b47e35629b2b9eca326dffb1f0bd8.png)
![c0e25c82ea873bfcfae645ff42a791c6.png](https://img-blog.csdnimg.cn/img_convert/c0e25c82ea873bfcfae645ff42a791c6.png)
![07302f669d23b7ea4f8da45250049e8d.png](https://img-blog.csdnimg.cn/img_convert/07302f669d23b7ea4f8da45250049e8d.png)
![91bff03cb2b255b4a57591e5d00474bf.png](https://img-blog.csdnimg.cn/img_convert/91bff03cb2b255b4a57591e5d00474bf.png)
可得出收入水平信息增益为0.55678,婚姻状况信息增益为0.281291,性别信息增益为0.191631
收入水平的信息增益最大,则以“收入水平”进行划分的准确程度最大。因此以它为来根结点分析,婚姻状况排第二,到婚姻状况就已经全部分析完成,因此决策树中不出现性别。
新上市酸奶决策树构建图
![ea0a45ed3586c6e482b1a1952c77359b.png](https://img-blog.csdnimg.cn/img_convert/ea0a45ed3586c6e482b1a1952c77359b.png)