决策树(上)
ID3、C4.5算法,用于分类
一、概述
整个决策树模型生成由:特征选择、决策树生成、剪枝,三步完成。
公式定义:
熵H(D):
条件熵H(D|A):
信息增益:
信息增益比:
Ha(D)就是条件熵H(D|A)
决策树生成策略:
采用使数据集的熵减少最多的特征也就是信息增益或者信息增益比最大的特征来切分数据集,重复这样操作以达到目标精度为止。
决策树剪枝策略:
构建决策树带正则项的损失函数:
其中树T的叶结点个数为|T|,t是树T的叶结点,该叶结点有Nt个样本点,Ht(T)