[机器学习算法详解]决策树——以隐形眼镜分类问题为例

[机器学习算法详解]决策树——以隐形眼镜分类问题为例

一、 问题背景

决策树是概念学习的一种模型和学习算法,所谓概念学习可以看成是一个搜索过程,搜索的范围是假设定义的空间,搜索的目标是寻找能更好得拟合训练样例的假设。决策树希望通过构造一种IF-THEN的规则的集合,来对离散值数据进行分类。决策树模型是一种监督学习,训练样例是包含特征和类别,每个特征的取值是离散的,类别也是离散的。例如隐形眼镜分类问题,隐形眼镜的数据集合中,有四个特征分别为患者年龄、眼睛处方、是否散光、眼泪分泌率,三个类别分别为硬型、软型和不适合佩戴。决策树模型是判别模型,通过直接生成后验概率分布作为判别条件进行分类。
决策树是一棵多叉树,树的叶子节点表示分类信息,即应该被分到的类别。树的中间节点表示用于分枝的特征属性,即在该层使用特定的属性进行分类,中间节点的分枝个数等于该特征的离散值取值个数。树从树顶到叶子节点的路径表示某一个样例根据其每个特征的取值会被分到的类别。决策树的归纳偏置是优先选择更矮的树并且优先选择对分类更好的特征使其离树根更近。决策树分为特征选择、决策树生成和剪枝三个步骤。

二、算法详解

1. 特征选择

特征选择主要解决找出哪些特征是对分类最有帮助的特征,将这些特征尽量安排到离树的根节点更近的位置,这样使得分类更加准确。通过定量的方法如何判断一个属性更适合分类,这里引入熵、条件熵、信息增益和信息增益比概念进行定量判断。
熵是指信息的不确定性程度。如果对于观测变量Y(以隐形眼镜的类别为硬、软两类),观测100次,100次都是硬,那么说明这个观测变量Y的不确定性很小,如果50次是硬,50次是软,那么说明这个观测变量Y的不确定性很大。对于一个观测变量,如果每个观测值的概率都非常小或者非常大,那么确定性很大,如果观测值的概率都非常接近,那么确定性很小。熵的计算公式为 H(X)=ipilogpi 当二分类时,即i只有两个取值时,对熵求导得

ddp(plogp+(1p)log(1p))=log(11p1)
分析得知,熵随着概率从0~1的取值,从0增加到1又减少到0,和我们要求的熵的特性相同。
条件熵是指在一个特征属性的不同取值的分类下,信息的不确定性程度。如果对于特征属性取特定值时,观测变量的不确定性发生的变化说明了该特征对熵的影响程度,条件熵的公式如下
H(YXt)=j
  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值