决策树分类

构建决策树流程:

1、选择一个特征作为根节点。

        熵:Entropy=-\sum_{1}^{n}p(i)log_{2}p(i)

        基尼:1-\sum_{1}^{n}[p(i)]^{2}

        n为标签个数,P(i)为某个标签的比例或者概率。

        根据基尼或者。这两个都是越小越好,计算一个特征所有属性的基尼值,然后进行加权求和,作为这个特征的基尼值,越小代表这个特征越纯,也就是根据这个特征能不能很好的判断出这个样本的标签是什么。

2、子节点的选择,如下面,婚姻状态为单/离异分支的情况,需要在这一分支的数据里面来计算剩余特征的基尼或者熵,选择纯度高的作为分支节点。

序数性特征处理

像年收入这种数值类的特征,有很多属性,可以考虑选择所有样本的年收入的中点,把年收入简单划为两类,变成二元的,分别计算每一类的基尼值。

预测

将新样本的特征输入到决策树中,根据特征的属性走不同的分支,最终到达某个叶子节点(标签),该标签就是预测结果。

  • 9
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值