决策树算法梳理
一、 信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度)
熵:
香农用信息熵的概念来描述信源的不确定度。
对于任意一个随机变量 X,它的熵定义如下:
变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。
联合熵:
两个变量 X和Y的联合信息熵定义为:
联合熵表征了两事件同时发生系统的不确定度。
条件熵:
设有随机变量(X,Y),其联合概率分布为 p(X=x,Y= yi) = pi...
原创
2019-04-03 21:49:44 ·
513 阅读 ·
0 评论