简单python代码实现决策树计算信息增益_python手动计算信息增益

本文介绍了如何手动使用Python计算决策树中的信息增益,通过一个买瓜的例子详细阐述了信息增益的概念,并给出了计算信息增益的代码示例。通过计算不同特征的信息增益,确定最佳划分属性。
摘要由CSDN通过智能技术生成

python手动计算信息增益

2019年5月23日 17:49 by wst

算法实践

概念阐述

对于决策树, 以前看了很多遍, 但是总感觉摸不着它.

里面有个很重要的概念: 信息增益.

今天就来手动实现下, 实现之前先说下它的概念(这个定义里好多名词都有经验二字,是因为都是根据样本得到的).

特征 A 对训练数据集D的信息增益 g(D,A) 定义为: 集合D的经验熵 H(D) 与特征A给定条件下D 的经验条件熵 H(D|A) 之差, 即:

g(D,A) = H(D) - H(D|A)

通俗的说就是:  在一个条件给定情况下,信息不确定性减少的程度!

在决策树生成过程中,每次选择信息增益最大的那个特征作为节点.

举例说明

以买瓜为例,夏天到了, 大家都比较爱吃西瓜, 但是怎么样才能买个好瓜呢? 要不然回家媳妇(女朋友)该说了, 你什么情况? 买个西瓜都买不好. 为了避免挨说, 还是得学好决策树, 搞清楚信息增益是怎么回事.

数据如下: (下载方式: 链接: https://pan.baidu.com/s/1Gr1TLaVwuwi9lO6BcdjoAQ 提取码: wr9j )

编号

色泽

根蒂

敲声

纹理

脐部

触感

好瓜

1

青绿

蜷缩

浊响

清晰

凹陷

硬滑

2

乌黑

蜷缩

沉闷

清晰

凹陷

硬滑

3

乌黑

蜷缩

浊响

清晰

凹陷

硬滑

4

青绿

蜷缩

沉闷

清晰

凹陷

硬滑

5

浅白

蜷缩

浊响

清晰

凹陷

硬滑

6

青绿

稍蜷

浊响

清晰

稍凹

软粘

7

乌黑

稍蜷

浊响

稍糊

稍凹

软粘

8

乌黑

稍蜷

浊响

清晰

稍凹

硬滑

9

乌黑

稍蜷

沉闷

稍糊

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值