信息熵公式是:
条件信息熵计算方法是:
信息增益为:
H(C)-H(C|X)
取使信息增益最大的特征分割样本,ID3使用这种方法,
他是多分支的树,每一个特征取值变为一个子树。而cart回归树为二叉树,使用gini
系数确定分割特征和分割点,如下:
在分类问题中,假设有K个类,样本点属于第k类的概率为Pk,则概率分布的gini指数的定义为:
如果样本集合D根据某个特征A被分割为D1,D2两个部分,那么在特征A的条件下,集合D的gini指数的定义为:
信息熵公式是:
条件信息熵计算方法是:
信息增益为:
H(C)-H(C|X)
取使信息增益最大的特征分割样本,ID3使用这种方法,
他是多分支的树,每一个特征取值变为一个子树。而cart回归树为二叉树,使用gini
系数确定分割特征和分割点,如下:
在分类问题中,假设有K个类,样本点属于第k类的概率为Pk,则概率分布的gini指数的定义为: