决策树的基本原理

决策树

定义: 对实例进行分类的树形结构,通过多层判断区别所属目标

本质: 通过多层判断,从训练数据集中归纳出一组分类规则

优点

  • 计算量小, 运算速度快
  • 易于理解,可清晰查看各个属性的重要性

缺点

  • 忽略属性间的相关行
  • 样本类别分布不均匀时,容易影响模型表现

ID3: 利用信息熵原理选择信息增益最大的属性进行分类属性,递归的拓展决策树的分支,完成决策树的构造

信息熵:度量随机变量不确定的指标,熵越大,变量的不确定性就越大。假定当前样本集合D中第k类样本所占的比例为: p_x,则D的信息熵为:
E n t ( D ) = − ∑ k = 1 ∣ y ∣ p k log ⁡ 2 p k Ent(D)= -\sum_{k=1}^{|y|}p_k\log_2p_k Ent(D)=k=1ypklog2pk
根据信息熵可以计算以属性a进行样本划分带来的信息增益:
G a i n ( D , a ) = E n t ( D ) − ∑ v = 1 V D v D E n t ( D v ) Gain(D,a)=Ent(D)-\sum_{v=1}^{V}\frac{D^v}{D}Ent(D^v) Gain(D,a)=Ent(D)v=1VDDvEnt(Dv)
V为根据属性a划分出的类别数,D为当前样本总数,D^v为类别v样本数

在这里插入图片描述

目标: 划分后样本分布不确定性尽可能小,即划分后信息熵小,信息增益大
例子:
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值