根节点的选择
衡量标准-熵
熵是表示随机变量不确定性的度量,越小越好
,
为不同元素在集合中出现的频率
信息增益:表示特征X使得类Y的不确定性减少的程度。
先计算y的熵值为原始熵值,再计算中不同特征对应y的熵值,再频率乘以每个特征的熵值,求和后得到
的熵值。
增益=原始熵值-,最大值为根节点,依次类推。
决策树算法
ID3:信息增益(ID熵值小,增益大,但是对结果的影响基本没有)
C4.5:信息增益率(解决ID3,考虑自身熵)
CART:使用GINI系数来当做衡量标准
GINI系数: