【机器学习】熵-信息增益-ID3-C4.5

目录

1. 熵(Entropy)

2. 信息增益(Information Gain)

3. ID3算法

4. C4.5算法

总结和联系


1. 熵(Entropy)

  • 定义:熵是信息理论中的一个基本概念,用来衡量一个随机变量的不确定性或纯度。在决策树中,熵用于度量数据集的混乱程度或纯度。
  • 数学表达:对于一个有 n 个类别的离散随机变量 X,其熵 H(X)定义为:

其中,p(xi)是类别 xi出现的概率。熵的值越高,表示数据的混乱度越大;熵的值越低,表示数据的纯度越高。

  • 直观理解:熵是对数据集不确定性的度量。当所有数据都属于同一类别时,熵为0(表示完全纯净);当数据均匀分布在所有类别时,熵达到最大值(表示完全混乱)。

2. 信息增益(Information Gain)

  • 定义:信息增益是用来衡量某个特征对数据集分类的效果的指标。它表示在使用该特征对数据集进行划分之后,熵减少的程度。

  • 直观理解:信息增益反映了通过某个特征对数据进行划分能带来多少“纯度”的提升(即不确定性的减少)。特征的信息增益越大,表示这个特征越适合用来划分数据。

3. ID3算法

  • 定义:ID3(Iterative Dichotomiser 3)算法是构建决策树的一个经典算法,使用信息增益作为选择分裂属性的标准。ID3 通过递归地选择信息增益最大的特征来划分数据,逐步构建决策树。
  • 工作原理
    1. 计算所有特征的信息增益。
    2. 选择信息增益最大的特征作为当前节点的划分特征。
    3. 根据该特征的不同取值,将数据集划分成子集。
    4. 对每个子集递归地重复上述步骤,直至所有特征用尽或者节点完全纯净。
  • 缺点ID3 只能处理分类特征(离散属性),不支持连续特征的划分。此外,ID3 使用信息增益作为划分标准,容易偏向具有更多取值的特征(即产生过拟合)。

4. C4.5算法

  • 定义:C4.5 是 ID3 的改进版本,解决了 ID3 的一些缺陷。C4.5 使用“增益率”(Gain Ratio)来替代信息增益作为划分标准,并能够处理连续属性、缺失值和剪枝等问题。

  • 工作原理
    1. 计算所有特征的增益率。
    2. 选择增益率最高的特征作为当前节点的划分特征。
    3. 针对连续属性,找到最优的划分点将其转化为离散问题。
    4. 递归构建子树,直到达到停止条件。
    5. 使用剪枝技术防止过拟合。
  • 优点:C4.5 可以处理连续和离散数据,具有较强的泛化能力,不容易过拟合。C4.5 通过增益率避免了信息增益的偏向问题,并加入了剪枝过程,减少了决策树的复杂度。

总结和联系

  • :度量数据集的纯度或不确定性。
  • 信息增益:用于决策树算法中,衡量使用某个特征划分数据集后,熵的减少程度。ID3算法基于信息增益选择划分属性。
  • ID3算法:基于信息增益构建决策树,但容易偏向具有更多取值的特征。
  • C4.5算法:改进了ID3算法,使用增益率来选择划分属性,能够处理连续属性,并引入了剪枝机制来防止过拟合。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

sofaraway13

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值