决策树

1.信息熵
含义:代表不纯度,信息熵越大不纯度越高;
表达式: E n t ( D ) = − ∑ k = 1 m P k log ⁡ 2 P k Ent(D)=-\sum_{k=1}^{m}P_k \log _2P_k Ent(D)=k=1mPklog2Pk
P k P_k Pk表示类别的概率
2. 信息增益
ID3决策树使用信息增益,在选取最具代表性的属性时使用;
信息增益表达式: i n f o ( D v ) = E n t ( D ) − ∑ i = 1 v ∣ D v ∣ ∣ D ∣ E n t ( D v ) info(D_v) =Ent(D)-\sum_{i=1}^{v}\frac{|D_v|}{|D|}Ent(D_v) info(Dv)=Ent(D)i=1vDDvEnt(Dv)
v代表该属性的种类数,根据D划分后,信息增益越高的,代表纯度升高,因为它所作的是减去信息熵,信息熵越小,数值越高,即纯度越高。
缺点是:对于不重复属性的,可能信息增益增益很高,但是他们不是我们的有效划分属性,比如编号;
3. 信息增益率
C4.5使用信息增益率进行最具代表性属性的选取,为了避免ID3中出现的情况在信息增益上除以属性的信息熵,避免划分不具备代表性:
信息增益率: i n f o _ r a t i o ( D , v ) = i n f o ( D v ) I V ( v ) info\_ratio(D,v)=\frac{info(D_v)}{IV(v)} info_ratio(D,v)=IV(v)info(Dv)
其中 I V ( v ) = − ∑ i = 1 v ∣ D v ∣ ∣ D ∣ log ⁡ 2 ∣ D v ∣ ∣ D ∣ IV(v)=-\sum_{i=1}^{v}\frac{|D_v|}{|D|}\log _2\frac{|D_v|}{|D|} IV(v)=i=1vDDvlog2DDv
4.基尼指数
G i n i ( D ) = ∑ k = 1 ∣ v ∣ ∑ k ′ ≠ k P k P k ′ = 1 − ∑ k = 1 ∣ v ∣ P k 2 Gini(D)=\sum_{k=1}^{|v|}\sum_{k'\neq k}P_kP_{k^\prime}=1-\sum_{k=1}^{|v|}P_k^2 Gini(D)=k=1vk=kPkPk=1k=1vPk2

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值