DataWhale-202110 树模型与集成学习(第一次)

本文介绍了树模型在机器学习中的应用,特别是决策树的构建过程,包括信息熵、信息增益、节点纯度等概念,并探讨了CART树的分裂标准以及如何处理连续值和缺失值的问题。此外,还讨论了决策树的剪枝策略,以防止过拟合。
摘要由CSDN通过智能技术生成

信息论的基础

正如文档里面所说的一样,树具有一定的天然分支结构,在机器学习中有分类与回归两大问题,而分类问题中,树的分支结构起到一定的关键作用,首先引入的是节点纯度的概念

节点纯度

节点纯度反映的是节点样本标签的不确定性,当一个节点纯度较低的时候,说明分类的不确定性较高,而节点纯度较高的时候,代表着我们能够把握这个节点的具体信息,确定性较高

不确定性函数 H ( P ) H(P) H(P)

H ( p 1 , . . . , p n ) = − C ∑ i = 1 n p i log ⁡ p i H(p_1,...,p_n)=-C\sum_{i=1}^np_i\log p_i H(p1,...,pn)=Ci=1npilogpi
其中满足信息熵条件是:

  1. H H H关于 p i p_i pi是连续函数。
  2. p 1 = . . . = p n p_1=...=p_n p1=...=pn,则 H H H关于 n n n单调递增。
  3. 若将某一个 p i p_i pi拆分为 p i 1 p_{i1} pi1 p i 2 p_{i2} pi2,即 p i 1 + p i 2 = p i p_{i1}+p_{i2}=p_i pi1+pi2=pi,则
    H ( p 1 , . . . , p i − 1 , p i + 1 , . . . , p n , p i 1 , p i 2 ) = H ( p 1 , . . . , p n ) + p i H ( p i 1 p i , p i 2 p i ) H(p_1,...,p_{i-1},p_{i+1},...,p_n,p_{i1},p_{i2})=H(p_1,...,p_n)+p_iH(\frac{p_{i1}}{p_i}, \frac{p_{i2}}{p_i}) H(p1,...,pi1,pi+1,...,pn,pi1,pi2)=H(p1,...,pn)+piH(pipi1,pipi2)

对于定义在有限状态集合 { y 1 , . . . , y K } \{y_1,...,y_K\} { y1,...,yK}上的离散变量而言,对应信息熵的最大值在离散均匀分布时取到,最小值在单点分布时取到。此时,离散信息熵为
H ( Y ) = − ∑ k = 1 K p ( y k ) log ⁡ 2 p ( y k ) H(Y)=-\sum_{k=1}^K p(y_k)\log_2p(y_k) H(Y)=k=1Kp(y

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值