机器学习与大数据分析——决策树

最新推荐文章于 2024-02-14 09:48:32 发布

冠long馨

最新推荐文章于 2024-02-14 09:48:32 发布

阅读量827

点赞数

分类专栏：机器学习与大数据分析文章标签：机器学习决策树

本文链接：https://blog.csdn.net/koulongxin123/article/details/120518939

版权

文章目录

1. 基本流程
2. 划分选择
3. 剪枝处理
4. 连续与缺失值

1. 基本流程

（1）叶节点类别的划分
① 当前D中所有样本都属于同一类别C时 ⇒ 将Node标记位C类型的叶节点
② 当前属性集A为空 ==> 将Node标记为当前样本集合D中数量最多类别的叶节点
③ 当前样本集D为空 ⇒ 将Node标记为其父节点样本中数量最多的类的叶节点

TreeGenerate(D,A)
{
   
    //1.生成结点Node
    if 当前D中样本全属于同一类别C then
        将Node标记为C类别的叶节点
    end if
    if 属性集A为空(但样本还未分类完毕) OR 样本在所有属性下取值相同
        将Node标记为当前样本集合D中最多类别的叶节点
    end if
    //2.从所有属性中选择最优化分
    for a in A
        // 若当前样本集合D为空
        if D 为空 then
            将Node标记为父节点样本集合D中最多类别的叶节点
        else // 不为空  分类
            TreeGenerate(D,A-{
   a})
        end if
    end for
}

2. 划分选择

2.1 信息熵

信息熵是度量样本集合纯度最常用的指标。假定集合D中第K类样本所占的比例为 $P_k$ ，则D的信息熵定义为：
$Ent(D)=-\sum_{k=1}^{2}P_k log_2P_k$
其中，Ent(D)的值越小，则D的纯度越大。
① 约定：若p=0，则 $plog_2p=0$
② Ent(D)的最小值为0（当D中所有样本属于同一类型），最大值为1（当D中样本类型的比例呈1:1分布）

2.2 经典的属性划分方法

2.2.1 信息增益

（1）定义

离散属性 $\alpha$ 有V个可能的取值 ${a^1,a^2,\dots,a^V}$ ，用 $\alpha$ 来进行划分，会产生V个分支节点，其中第v各分支节点包含了D中所有在属性 $\alpha$ 上取值为 $a^V$ 的样本，记为 $D^v$ 。
可以计算出用属性 $\alpha$ 对样本D进行划分所得到的信息增益：
$Gain(D,\alpha)=Ent(D)-\sum_{v=1}^{V}\frac{|D^v|}{|D|}Ent(D^v)$

最低0.47元/天解锁文章

冠long馨

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习与大数据分析——决策树

文章目录1. 基本流程2. 划分选择2.1 信息熵2.2 经典的属性划分方法2.2.1 信息增益（1）定义（2）划分方法（3）例题2.2.2 增益率2.2.3 基尼指数1. 基本流程（1）叶节点类别的划分① 当前D中所有样本都属于同一类别C时 ⇒ 将Node标记位C类型的叶节点② 当前属性集A为空 ==> 将Node标记为当前样本集合D中数量最多类别的叶节点③ 当前样本集D为空 ⇒ 将Node标记为其父节点样本中数量最多的类的叶节点TreeGenerate(D,A){ //1.生
复制链接

扫一扫