数据分析 | 信息增益与基尼系数的通俗解释(含实例)

本文详细解释了信息增益和基尼系数在决策树中的作用,包括它们的定义、计算方法及在预测顾客是否点甜点的应用实例,强调了两者在数据纯度提升和不纯度衡量上的差异。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、 信息增益

关于信息增益,写得非常好非常通俗易懂的文章:
【结合实例】信息增益的计算_怎么计算信息增益-CSDN博客

1. 定义

信息增益是基于信息论的概念,用于度量在给定特征的情况下,数据集的不确定性减少程度。在决策树中,选择能够使得信息增益最大的特征作为划分节点。

2. 计算方法

  • 计算数据集的初始信息熵(Entropy):衡量数据的不确定性程度。
  • 根据每个特征的取值对数据集进行划分,计算每个划分的条件熵(Conditional Entropy)。
  • 计算每个特征的信息增益,即初始信息熵与条件熵之差。 选择信息增益最大的特征作为划分节点。

信息熵计算公式:
H ( Y ) = − ∑ i = 1 m p i log ⁡ 2 ( p i ) H(Y)=-\sum_{i=1}^{m} p_{i}\log_{2}({p_{i}} ) H(Y)=i=1mpilog2(pi)
条件熵计算公式:
X给定条件下,Y的条件概率分布的熵对X的数学期望
p ( X = x i , Y = y j ) = p i j , i = 1 , 2 , . . . , n ; j = 1 , 2 , . . . , m p(X=x_{i},Y=y_{j}) = p_{ij}, i=1,2,...,n;j=1,2,...,m p(X=xi,Y=yj)=pij,i=1,2,...,n;j=1,2,...,m
H ( Y ∣ X ) = ∑ x ⊂ X p ( x ) H ( Y ∣ X = x ) H(Y|X)=\sum_{x\subset X}^{} p(x)H(Y|X=x) H(YX)=xXp(x)H(YX=x)
H ( Y ∣ X ) = − ∑ x ⊂ X ∑ y ⊂ Y p ( x , y ) log ⁡ p ( y ∣ x ) H(Y|X)=-\sum_{x\subset X}^{} \sum_{y \subset Y}^{} p(x,y)\log p(y|x) H(YX)=xXyY

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

月婵婵

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值