决策树
- 以信息熵为度量构造一颗熵值下降最快的数,到叶子节点处的熵值为零,此时每个叶子节点中的实例都属于同一类
1. 信息熵
2. 条件熵
在X发生的前提下,Y发生"新"带来的熵
H(Y|X) = H(X,Y) - H(X)
3. 相对熵
- 两个随机变量之间的相对距离
4. 互信息
- 两个随机变量X,Y的互信息
I(X,Y) = H(X) + H(Y) - H(X, Y)
H(X|Y) <= H(X)
5. 信息增益
5.1 信息增益定义
- 当熵和条件熵中的概率由数据估计(特别是最大似然估计)得到时,所对应的熵和条件熵分别称为经验熵和经验条件熵
- 信息增益表示得知特征A的信息而使得类X的信息的不确定性减少的程度
- 定义: 特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件H(D|A)之差,
g(D,A) = H(D) - H(D|A)
即给训练数据集D和特征A的互信息
5.2 信息增益计算方法
5.3 条件经验熵H(D|A)
6. 信息增益率和Gini系数
7. 样本不均衡常用处理方法
8. 使用RF建立计算样本间的相似度