【算法梳理】决策树

目录1. 信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度)2.决策树的不同分类算法(ID3算法、C4.5、CART分类树)的原理及应用场景3. 回归树原理4. 决策树防止过拟合手段5. 模型评估6. sklearn参数详解,Python绘制决策树1. 信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度)熵(信息熵)度量样本集合纯度最常用的指标。假设样本集合...
摘要由CSDN通过智能技术生成

目录

1. 信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度)

2.决策树的不同分类算法(ID3算法、C4.5、CART分类树)的原理及应用场景

3. 回归树原理

4. 决策树防止过拟合手段

5. 模型评估

6. sklearn参数详解,Python绘制决策树


1. 信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度)

  • 熵(信息熵)

度量样本集合纯度最常用的指标。假设样本集合D中第k类样本所占的比例为pk,则D的信息熵定义为:

Ent(D)值越小,D的纯度越高。

  • 联合熵

两个随机变量X,Y的联合分布,可以形成联合熵(Joint Entropy),用H(X, Y)表示。

  • 条件熵

H(X, Y) - H(Y):

表示(X, Y)发生所包含的熵,减去Y单独发生包含的熵:在Y发生的前提下,X发生新带来的熵。

H(X|Y)推导如下:

 

用处:决策树的特征选择,实际上使用的信息增益,就是用G(D,A)=H(Y)-H(Y|X)。可以看出在X的条件下,Y的不确定度下降了多少。

  • 相对熵/交叉熵/K-L散度

相对熵,又称互熵,交叉熵,鉴别信息,Kullback-Leible散度等。

  • 互信息

两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布乘积的相对熵。

H(X|Y) = H(X) - I(X, Y)。即互信息为0,则随机变量X和Y是互相独立的。

  • 各种熵之间的关系

  • 信息增益(ID3)

属性a对样本D进行划分获得的‘信息增益’定义如下:

Dv表示样本集合D中在属性a上取值为av的样本。信息增益越大意味着属性a进行划分得到的“纯度提升”越大。

信息增益对取值数目较多的属性有偏好。

  • 增益率(C4.5)

定义如下:

IV(a)是属性a的固有值。属性a的可能取值越多,IV(a)通常越大。增益率准则对于取值数目少的属性有偏好。

C4.5不是选择增益率最大的属性,而是采用了一种启发式:先从候选属性中找到信息增益高于平均水平的属性,再从中选择增益率最高的。

  • 基尼不纯度(CART决策树)

数据集D的纯度可以用基尼值(基尼不纯度)来度量:

反应了从数据集D中随机抽取两个样本,其类别标记不一致的概率。Gini(D)越小&

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值