决策树(上)
ID3、C4.5算法,用于分类
一、概述
整个决策树模型生成由:特征选择、决策树生成、剪枝,三步完成。
公式定义:
熵H(D):

条件熵H(D|A):

信息增益:
![]()
信息增益比:

Ha(D)就是条件熵H(D|A)
决策树生成策略:
采用使数据集的熵减少最多的特征也就是信息增益或者信息增益比最大的特征来切分数据集,重复这样操作以达到目标精度为止。
决策树剪枝策略:
构建决策树带正则项的损失函数:

其中树T的叶结点个数为|T|,t是树T的叶结点,该叶结点有Nt个样本点,Ht
本文介绍了决策树的生成和剪枝策略。首先讲解了ID3和C4.5算法,涉及特征选择、信息熵、信息增益和信息增益比的概念。接着,讨论了决策树的剪枝过程,通过损失函数平衡模型复杂度与训练数据拟合程度,防止过拟合。
ID3、C4.5算法,用于分类
一、概述
整个决策树模型生成由:特征选择、决策树生成、剪枝,三步完成。
公式定义:
熵H(D):

条件熵H(D|A):

信息增益:
![]()
信息增益比:

Ha(D)就是条件熵H(D|A)
决策树生成策略:
采用使数据集的熵减少最多的特征也就是信息增益或者信息增益比最大的特征来切分数据集,重复这样操作以达到目标精度为止。
决策树剪枝策略:
构建决策树带正则项的损失函数:

其中树T的叶结点个数为|T|,t是树T的叶结点,该叶结点有Nt个样本点,Ht
929

被折叠的 条评论
为什么被折叠?