DataWhale基础算法作业三:决策树相关

DataWhale基础算法作业三:决策树相关

学习任务

1.信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度)
2.决策树的不同分类算法(ID3算法、C4.5、CART分类树)的原理及应用场景
3.回归树原理
4. 决策树防止过拟合手段

1.基础概念(熵 联合熵 条件熵 信息增益 基尼不纯度)

在信息论与概率统计中,熵是表示随机变量不确定性的度量。
1)熵(entropy)
1
2)条件熵(conditional entropy)
2
3)联合熵
3
4)信息增益(information gain)
4

2.决策树的不同分类算法(ID3算法、C4.5、CART分类树)的原理及应用场景

1)ID3算法(分类树)
核心:在决策树各个结点上应用信息增益准则选择特征。

输入:训练数据集D,特征集A(可以从训练集中提取出来),阀值ε(用来实现提前终止);
a.若当前节点中所有实例属于同一类Ck,则该结点作为叶子节点,并将类别Ck作为该结点的输出类;
b.若A为空,则将当前结点作为叶子节点,并将数据集中数量最多的类作为该结点输出类;
c.否则,计算所有特征的信息增益,若此时最大的信息增益小于阀值ε,则将当前结点作为叶子节点,并将数据集中数量最多的类作为该结点输出类;
d.若当前的最大信息增益大于阀值ε,则将最大信息增益对应的特征A作为最优划分特征对数据集进行划分,根据特征A的取值将数据集划分为若干个子结点;
e.对第i个结点,以Di为训练集,以Ai为特征集(之前用过的特征从特征集中去除),递归的调用前面的1- 4 步。

2)C4.5算法(分类树)
核心:在决策树各个结点上利用信息增益比来选择特征。
(训练过程参见ID3算法,只不过选择依据由最大信息增益改为信息增益比最大)

3)CART分类树
核心:用基尼指数选择最优特征,同时决定该特征的最优二值切分点。
5
对于给定训练数据集D,从根结点开始递归的建立二叉决策树:
a.根据数据集D中每个特征A,以及其可能的取值a,按照取值的‘是‘和‘否’将数据集分成两部分,然后计算基尼系数 。
b.在所有可能的特征A以及他们所有可能的切分点a中,选择基尼指数最小的特征及其对应的切分点作为最优特征的与最优切分点。依最优特征和最优切分点,将现结点生成两个子结点,将训练数据集依特征分配到两个子结点中。
c.递归的调用1)2)步骤,直至达到停止条件

停止条件:(满足其一即可)
1)结点中的样本数小于预定的阈值;
2)样本集的基尼系数小于预定的阈值(此时基尼系数已经非常小,样本基本属于同一 类),
3)结点样本中没有更多的特征。

三种算法的选择:https://blog.csdn.net/github_39261590/article/details/76546281

3.回归树原理

https://blog.csdn.net/BF02jgtRS00XKtCx/article/details/82504619

4. 决策树防止过拟合手段

https://blog.csdn.net/sinat_32043495/article/details/78729610
(1)先剪枝(prepruning):通过提前停止树的构建而对树“剪枝”,一旦停止,节点就成为树叶。
(2)后剪枝(postpruning):它首先构造完整的决策树,允许树过度拟合训练数据,然后对那些置信度不够的结点子树用叶子结点来代替。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值