决策树算法梳理
1.信息论基础
熵:熵是表示随机变量不确定性的度量
(解释:说白了就是事物内部的混乱程度,比如杂货市场里面什么都有那肯定混乱,专卖店里面只卖一个牌子的那就稳定多了)
公式:
联合熵
联合熵就是度量一个联合分布的随机系统的不确定度。
条件熵
条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。
信息增益
表示特征X使得类Y的不确定性减少的程度。(分类后的专一性,希望分类后的结果是同类在一起)
其中 I 为不纯度的度量,关于 N 的计算是划分后的个数加权。
I 为熵(Entropy)的时候,Delta 为信息增益。
基尼不存度
基尼不存度是指来自集合的某种结果随机应用于集合中某一数据的预期误差。(如果集合中所有结果属于同一类,则误差为0