C4.5算法

文章介绍了如何利用C4.5算法构建决策树来预测餐厅顾客是否会来就餐。首先计算数据集的整体信息熵,然后分别计算各属性的信息增益比,选择信息增益比最高的属性(是否有预订)作为划分标准。最终形成的决策树以是否有预订为根节点,进一步根据天气条件进行细化预测。
摘要由CSDN通过智能技术生成

假设我们有一个关于餐厅顾客的数据集,其中包括9个样本,每个样本有3个属性:天气、是否有预订和是否是周末,以及一个类别标签,表示该顾客是否会来餐厅(是或否)。

数据集如下:

使用C4.5算法来构建决策树。

1、首先,计算整个数据集的信息熵,公式为:

 H(D) = -\sum_{i=1}^{k} p_i log_{2}^{p_i}

其中,k 表示类别的个数,p_i表示样本属于第 i 个类别的概率。

在本例中:

k=2

p_1=\frac{5}{9}

p_2=\frac{4}{9}

因此,整个数据集的信息熵为:

H(D) = -\frac{5}{9}log_2^\frac{5}{9} -\frac{4}{9}log_2^\frac{4}{9}\approx 0.99

2、接下来,计算每个属性的信息增益比。

以天气为例,计算其信息增益比的公式为:

GainRatio(A) = \frac{Gain(A)}{IV(A)}

其中

A :表示属性

Gain(A): 表示属性 $A$ 的信息增益

$IV(A)$ :表示属性 $A$ 的固有值

计算公式为:IV(A) = -\sum_{v=1}^{V} \frac{|D^v|}{|D|} log_2 \frac{|D^v|}{|D|}

其中:

$V$ :表示属性 $A$ 的取值个数

$D^v$ :表示选出属性 $A$ 取值等于 $v$ 的样本集合

在本例中,天气有三个取值,即晴天、阴天和雨天,因此 $V=3$

我们可以根据数据集中天气的取值,将数据集划分为三个子集:

  • 子集1:天气=晴天。该子集有4个样本,其中2个会来餐厅,2个不会来。
  • 子集2:天气=阴天。该子集有2个样本,其中2个会来餐厅
  • 子集3:天气=雨天。该子集有3个样本,其中1个会来餐厅,2个不会来。

计算子集1、子集2和子集3的信息熵:

H(D^{sunny}) = -\frac{2}{4}log_2^\frac{2}{4} -\frac{2}{4}log_2^\frac{2}{4} = 1

H(D^{cloudy}) = -log_2^1 =0

H(D^{rain}) = -\frac{1}{3}log_2^\frac{1}{3} -\frac{2}{3}log_2^\frac{2}{3} \approx0.918

计算天气的信息增益和固有值:

Gain(weather) = H(D) - \frac{5}{9}H(D^{sunny}) - \frac{2}{9}H(D^{cloudy})- \frac{2}{9}H(D^{rain})\approx 0.23

IV(weather) = -\frac{4}{9}log_2^\frac{4}{9} -\frac{2}{9}log_2^\frac{2}{9} -\frac{3}{9}log_2^\frac{3}{9} \approx 1.531

因此,天气的信息增益比为:

$GainRatio(weather) = \frac{Gain(weather)}{IV(weather)} \approx 0.15$

同样地,我们可以计算出其他属性的信息增益比,结果如下:

由于是否有预订的信息增益比最大,因此我们选择是否有预订作为划分属性,将数据集划分为有预订和无预订两个子集。

对于有预订的子集,其中所有样本都会来餐厅,因此我们可以将其转换为一个叶子节点,并赋予类别标签“是”;

对于无预订的子集,需要继续递归地执行上述步骤,直到所有子集都被转换为叶子节点。

最终的决策树如下:

是否有预订 = 是: 是
是否有预订 = 否:
|   天气 = 晴天: 否
|   天气 = 阴天: 是
|   天气 = 雨天: .....

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值