决策树 ID3

1.被用作分裂点的特征叫做分裂特征

ID3 算法(Iterative Dichotomiser 3):以信息增益为度量,选择分裂后信息增益最大的特征进行分裂。

信息熵(information entropy)
样本集合中第k类样本所占的比例为 p k ( k = 1 , 2 , . . . , n ) p_k(k=1,2,...,n) pk(k=1,2,...,n),n为样本分类的个数,则D的信息熵为
E n t ( D ) = − ∑ k = 1 n p k l o g 2 ( p k ) Ent(D)=-\sum_{k=1}^np_klog_2(p_k) Ent(D)=k=1npklog2(pk)
Ent(D)越小,则D的纯度越高。假设样本集合有2个分类,每类样本的比例为0.5,则Ent(D)=1;如果只有1个分类,则Ent(D)=0,显然后者比前者的纯度高。

信息增益(information gain)
使用特征a对样本集D进行划分,用个样本集的总信息熵减去特征a的每个分支的信息熵与权重的成绩,通常信息增益越大,意味着用特征a划分进行划分所获得的“纯度提升越大”,因此选择信息增益最大的属性来划分。设特征a有m个可能的取值 a 1 , a 2 , . . . , a m a_1,a_2,...,a_m a1,a2,...,am则,特征a的信息增益为:
G a i n ( D , a ) = E n t ( D ) − ∑ m = 1 m D m D E n t ( D m ) Gain(D,a) = Ent(D) - \sum_{m=1}^m\frac{D^m}{D}Ent(D^m) Gain(D,a)=Ent(D)m=1mDDmEnt(Dm)

参考:
https://blog.csdn.net/leaf_zizi/article/details/82848682
https://www.jianshu.com/p/a786c55597d2

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值