决策树(详细)

决策树
    [知道]决策树简介
        决策树是什么?
决策树是一种树形结构,树种每个内部节点表示一个特征上的判断,每个分支代表一个判断结果的输出,每个叶子节点代表一种分类结果

        决策树的建立过程:
1.特征选择: 选取有较强分类能力的特征
2.决策树生成: 根据选择的特征生成决策树.
3.决策树也易过拟合,采用剪枝的方法缓解过拟合
    ID3决策树
        [理解]信息熵
            ID3 树是基于信息增益构建的决策树
定义:
熵在信息论腮红代表随机变量不确定度的度量.
熵越大,数据的不确定性度越高
熵越小,数据的不确定性越低
            公式
                
            熵越大,表示整个系统不确定性越大,越随机,反之确定性越强
        [理解]信息增益
            定义:
由于特征A而使得对数据D的分类不确定性减少的程度
                
            根据信息增益选择特征方式是: 对训练数据集D,计算其每个特征的信息增益,并比较它们的大小,并选择薪资增益最大的特征进行划分.表示由于特征A而使得对数据D的分类不确定性减少的程度
        [知道]ID3树构建流程
            构建流程:
1.计算每个特征的信息增益
2.使用信息增益最大的特征将数据集 s 拆分子集
3.使用该特征(信息增益最大的特征)作为决策树的一个节点
4.使用剩余特征对子集重复上述(1,2,3)过程
        [知道]c4.5树构建说明
            ID3树的不足
偏向于选择种类多的特征作为分裂依据
            信息增益率
                信息增益率 = 信息增益 / 特征熵
相当于对信息增益进行修正,增加一个惩罚系数
                计算方法
                    
                信息增益率的本质
                    特征的信息增益 ÷ 特征的存在信息
相当于对信息增益进行修正,增加一个惩罚系数
特征取值个数较多时,惩罚系数较小;特征取值个数较小时,惩罚系数较大.
惩罚系数: 数据集D特征a作为随机变量的熵倒数
                信息增益率的作用
                    信息增益偏向于选择种类多的特征作为分裂依据
缓解ID3树中存在的不足

  • 21
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值