决策树算法在西瓜挑选中的应用-CSDN博客

本文链接：https://blog.csdn.net/IT23131/article/details/121068259

本文介绍了如何使用决策树算法解决西瓜挑选问题，详细阐述了信息熵、信息增益的概念，并通过Python实现了ID3、C4.5和CART算法。通过对西瓜数据集的应用，展示了决策树在分类中的效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

五.用sk-learn库对西瓜数据集，分别进行ID3、C4.5和CART的算法代码实现

一.决策树

决策树是一种基于树结构来进行决策的分类算法，我们希望从给定的训练数据集学得一个模型（即决策树），用该模型对新样本分类。决策树可以非常直观展现分类的过程和结果，一旦模型构建成功，对新样本的分类效率也相当高。最经典的决策树算法有ID3、C4.5、CART，其中ID3算法是最早被提出的，它可以处理离散属性样本的分类，C4.5和CART算法则可以处理更加复杂的分类问题.

二.西瓜挑选问题描述

举个例子：夏天买西瓜时，我一般先选瓜皮有光泽的（新鲜），再拍一拍选声音清脆的（成熟），这样挑出来的好瓜的可能就比较大了。那么我挑西瓜的决策树是这样的：

下面，我们就对以下表格中的西瓜样本构建决策树模型。

三.利用信息增益选择最优划分属性

样本有多个属性，该先选哪个样本来划分数据集呢？原则是随着划分不断进行，我们希望决策树的分支节点所包含的样本尽可能属于同一分类，即“纯度”越来越高。先来学习一下“信息熵”和“信息增益”。

信息熵（information entropy）
样本集合D中第k类样本所占的比例（k=1,2,...,|Y|），|Y|为样本分类的个数，则D的信息熵为：

$Ent(D)=-\sum_{k=1}^{|Y|}p_klog_2p_k$

Ent(D)的值越小，则D的纯度越高。直观理解一下：假设样本集合有2个分类，每类样本的比例为1/2，Ent(D)=1；只有一个分类，Ent（D）= 0，显然后者比前者的纯度高。

在西瓜样本集中，共有17个样本，其中正样本8个，负样本9个，样本集的信息熵为：

$Ent(D)=\sum_{k=1}^{2}p_klog_2p_k=-(\frac{8}{17}log_2\frac{8}{17}+\frac{9}{17}log_2\frac{9}{17})=0.998$

信息增益（information gain）
使用属性a对样本集D进行划分所获得的“信息增益”的计算方法是，用样本集的总信息熵减去属性a的每个分支的信息熵与权重（该分支的样本数除以总样本数）的乘积，通常，信息增益越大，意味着用属性a进行划分所获得的“纯度提升”越大。因此，优先选择信息增益最大的属性来划分。设属性a有V个可能的取值，则属性a的信息增益为：

西瓜样本集中，以属性“色泽”为例，它有3个取值{青绿、乌黑、浅白}，对应的子集（色泽=青绿）中有6个样本，其中正负样本各3个，（色泽=乌黑）中有6个样本，正样本4个，负样本2个，（色泽=浅白）中有5个样本，正样本1个，fuya负样本4个。
$Ent(D^3)=-\left ( \frac{1}{5}log_2\frac{1}{5}+\frac{4}{5}log_2\frac{4}{5} \right )=0.722$