一句话解释ID3\C4.5算法

ID3\C4.5算法

ID3算法

ID3算法,ID的意思是 Iteritive Dichotomiser(迭代二分类器)。

它的基本原理是对所有特征求信息增益,选出信息增益最大的特征,按照该特征对数据进行分组 D 1 , D 2 D_1, D_2 D1,D2(二分类,所以分了两组),然后,如果每组中所有的样本都属于同一类,则创建该节点为叶子节点;否则,递归上面的步骤,一直到所有节点都为叶子节点结束递归。

C4.5算法

C4.5(Classifier4.5) 算法是对 ID3 算法的改进,就是将 ID3中的信息增益改为求信息增益比

名词解释

信息增益:
特征 A 对训练数据集D的信息增益g(D,A),定位集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差,即:
g ( D , A ) = H ( D ) − H ( D ∣ A ) g(D,A) = H(D) - H(D | A) g(D,A)=H(D)H(DA)

信息增益比:
特征A对训练数据集D的信息增益比 g R ( D , A ) g_R(D, A) gR(D,A) 定义为其信息增益 g(D, A) 与训练数据集 D关于特征A的值的熵 H A ( D ) H_A(D) HA(D)之比,即:
g R ( D , A ) = g ( D , A ) H A ( D ) g_R(D, A) = \frac{g(D, A)}{H_A(D)} gR(D,A)=HA(D)g(D,A)
其中, H A ( D ) = − ∑ i = 1 n ∣ D i ∣ ∣ D ∣ l o g 2 ∣ D i ∣ D H_A(D) = -\sum_{i=1}^n \frac{|D_i|}{|D|}log_2 \frac{|D_i|}{D} HA(D)=i=1nDDilog2DDi,n是特征A取值的个数。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值