决策树的实施过程主要包含特征选择、决策树的生成与树的修剪
1. 特征选择
(1)熵
--离散变量x取值为i的概率
熵越大,数据的不确定越大。
(2)条件熵
(3)信息增益
(4)信息增益率
(5)基尼系数
对于样本D,假设K个类别,第k个类别的数量为|Ck|,则样本D的基尼系数表达式:
对于样本D,根据特征j的某个值s,把D分成|D1|和|D2|,则在特征A的条件下,样本D的基尼系数表达式为:
决策树的实施过程主要包含特征选择、决策树的生成与树的修剪
(1)熵
--离散变量x取值为i的概率
熵越大,数据的不确定越大。
(2)条件熵
(3)信息增益
(4)信息增益率
(5)基尼系数
对于样本D,假设K个类别,第k个类别的数量为|Ck|,则样本D的基尼系数表达式:
对于样本D,根据特征j的某个值s,把D分成|D1|和|D2|,则在特征A的条件下,样本D的基尼系数表达式为: