1.被用作分裂点的特征叫做分裂特征
ID3 算法(Iterative Dichotomiser 3):以信息增益为度量,选择分裂后信息增益最大的特征进行分裂。
信息熵(information entropy)
样本集合中第k类样本所占的比例为
p
k
(
k
=
1
,
2
,
.
.
.
,
n
)
p_k(k=1,2,...,n)
pk(k=1,2,...,n),n为样本分类的个数,则D的信息熵为
E
n
t
(
D
)
=
−
∑
k
=
1
n
p
k
l
o
g
2
(
p
k
)
Ent(D)=-\sum_{k=1}^np_klog_2(p_k)
Ent(D)=−∑k=1npklog2(pk)
Ent(D)越小,则D的纯度越高。假设样本集合有2个分类,每类样本的比例为0.5,则Ent(D)=1;如果只有1个分类,则Ent(D)=0,显然后者比前者的纯度高。
信息增益(information gain)
使用特征a对样本集D进行划分,用个样本集的总信息熵减去特征a的每个分支的信息熵与权重的成绩,通常信息增益越大,意味着用特征a划分进行划分所获得的“纯度提升越大”,因此选择信息增益最大的属性来划分。设特征a有m个可能的取值
a
1
,
a
2
,
.
.
.
,
a
m
a_1,a_2,...,a_m
a1,a2,...,am则,特征a的信息增益为:
G
a
i
n
(
D
,
a
)
=
E
n
t
(
D
)
−
∑
m
=
1
m
D
m
D
E
n
t
(
D
m
)
Gain(D,a) = Ent(D) - \sum_{m=1}^m\frac{D^m}{D}Ent(D^m)
Gain(D,a)=Ent(D)−∑m=1mDDmEnt(Dm)
参考:
https://blog.csdn.net/leaf_zizi/article/details/82848682
https://www.jianshu.com/p/a786c55597d2