决策树的公式推导——ID3
ID3算法
信息熵:
熵是度量样本集合纯度最常用的一种指标,代表一个系统中蕴含着多少信息量,信息量越大表面一个系统不确定性就越大,就存在跟多的可能性,即信息熵越大
假定当前样本集合D中第k类样本所占的比例为PkP_kPk(k=1,2,……,|y|),则D的信息熵为:
Ent=−∑k=1∣y∣pklog2pkEnt = -\sum_{k=1}^{|y|} p_k log_2p_kEnt=−∑k=1...
原创
2019-09-25 21:56:48 ·
447 阅读 ·
0 评论