1.关于ID3的理解
1).信息熵这里的集合D(一个大属性中,如是否是好瓜,这里的D一般用作根类,如书上我们的根类就是要判断一种瓜是不是好瓜)中第k类(如好类or坏类)样本所占比例,或者是k类样本正确的可能性。
2).在计算信息增益时,所求的,即是色泽里某一分支的信息熵还需要乘权重(比如:所有瓜中青绿色瓜占多少的比例),在Ent(D^青绿)中概率p为在在所有青绿的瓜中选到好瓜和坏瓜的概率或者比例。
2.ID4.5的理解
这里主要是把ID3所求的Gain进行了一个修正,加了一个固有值IV(a),(比如:所有瓜中青绿色瓜占多少的比例),这个值也是分类越多多大,所有把Gain除以这个数,可以进行一个修正。