决策树模型:
属于有监督模型,以信息熵(平均不确定性)为度量构造一棵 熵值下降最快的树,到叶子节点处的熵 值为零, 此时每个叶节点中的实例都属于同一类 。
注: 信息:不确定性的度量;信息熵:平均不确定性的度量;
平均互信息:得知特征Y的信息而使对标签X的信息不确定的减少,衡量两个概率分布之间的相似性
自我理解:决策树就是一个分类器,按照不同属性,把样本分类,但确保属性完全相同的样本,属于同一类别。但是找到合适的属性是较困难的
根据不同的目标函数 ,建立决策树主要有一下三种算法。 ID3 C4.5 CART
- 信息增益 ID3
特征A对训练数据集D的信息增益g(D,A), 定义为集合D的经验熵H(D)与特征A给定条 件下D的经验条件熵H(D|A)之差,
即: g(D,A)=H(D) – H(D|A) ,即 :互信息= 熵 - 条件熵 其中:D表示标签(目标);A表示属性(特征)
显然,这即为训练数据集D和特征A的互信息。