《西瓜书》决策树部分公式推导

本文深入解析了决策树中熵、信息增益和增益率的概念,以及基尼指数的计算。通过讨论这些概念,阐述了如何评估样本集合的纯度,并解释了在特征选择中如何利用这些指标。信息增益倾向于选择特征值多的特征,而增益率则弥补了这一缺陷,更偏好于特征值较少的特征。同时,介绍了基尼指数作为另一种衡量纯度的指标,用于连续特征的划分决策。
摘要由CSDN通过智能技术生成

1、公式4.1注解
熵是度量样本集合纯度最常用的一种指标,代表一个系统中蕴含多少信息量,信息量越大表明一个系统不确定性就越大,就存在越多的可能性。
假定当前样本集合D中第 k k k类样本所占的比例为 p k ( k = 1 , 2 , . . . , ∣ y ∣ ) p_k(k =1,2,...,|y|) pk(k=1,2,...,y),则 D D D的信息熵为:
E n t ( D ) = − ∑ k = 1 ∣ y ∣ p k l o g 2 p k Ent(D) =-\sum_{k=1}^{|y|}p_klog_{2}{p_k} Ent(D)=k=1ypklog2pk
其中,当样本 D D D ∣ y ∣ |y| y类样本均匀分布时,这时信息熵最大,其值为
E n t ( D ) = − ∑ k = 1 ∣ y ∣ 1 ∣ y ∣ l o g 2 1 ∣ y ∣ = ∑ k = 1 ∣ y ∣ 1 ∣ y ∣ l o g 2 ∣ y ∣ = l o g 2 ∣ y ∣ Ent(D) =-\sum_{k=1}^{|y|}\frac{1}{|y|}log_{2}{\frac{1}{|y|}} = \sum_{k=1}^{|y|}\frac{1}{|y|}log_{2}{|y|} = log_{2}{|y|} Ent(D)=k=1yy1log2y1=k=1yy1log2y=log2y
此时样本D的纯度越小;
相反,假设样本 D D D中只有一类样本,此时信息熵最小,其值为
E n

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值