【数据分析】决策树案例详解

文章来源:公众号-智能化IT系统。


初识决策树

决策树是一个类似于人们决策过程的树结构,从根节点开始,每个分枝代表一个新的决策事件,会生成两个或多个分枝,每个叶子代表一个最终判定所属的类别。


例如,如下是一个决策树,代表薪水大于30W的男性会买车。



我们可以很容易的写出IF Else来实现决策树的判定。上述的决策树有两个特征区间,性别和年龄,最终的结果有两个类别,买和不买。


决策树流程

我们在实际的大数据分析中,一般对决策树分为四个步骤:

  1. 生成决策树模型

    上例中的图就是一个决策树模型,具体的生成方式后面会详细介绍。

  2. 产生分类规则

    通过决策树模型产生分类的规则,这一步很简单,如果分枝少,直接的IF Else即可,在上例中,就是

    if (sex=male)

    {

    if(money>30W)

    {

    buy = true;

    }

    else

    buy = fales;

    else

    {

    buy = false;

    }

  3. 测试决策树模型的准确性

    假设我们有1万条数据,可以对前9千条进行决策树模型测试,生成好后,对剩下的1千条数据进行准确性测试,以评估决策树的准确度。

  4. 对新数据进行预测

    这一步没什么说的了,唯一注意的是必须在第三步通过的基础上,决策不是儿戏。


决策树生成

下面我们围绕第一步,说明如何生成决策树。有一个熵的概念,在决策树中需要用到类别熵(H(c))以及特征条件熵(H(c|x)),同时在此基础上计算信息增益(G(x)),以决定决策树的生成。公式如下:

G(x) = H(c) - H(c|x)


概念是虚幻的,下面我们用一个具体的案例来说明,还是前面提到的一个买房的记录:

用户ID 年龄 性别 收入 婚姻状况 是否买房
1 27 15W
2 47 30W
3 32 12W
4 24 45W
5 45 30W
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值