机器学习之决策树学习笔记

一、决策树学习的目标

根据给定的训练数据集,归纳出一组分类规则,构建决策树模型,使得模型能对实例进行正确划分。 

 

二、决策树模型

①决策树模型是基于特征,对实例进行分类的树形结构。

②决策树模型的组成结构有:

1. 结点(node)

结点分为内部结点(internal node)和叶结点(leaf node),每一个内部结点对应着一个特征或属性,每一个叶结点对应着一个类

2. 有向边(directed edge)

下图为一个决策树模型,其中圆圈表示内部结点,矩形表示叶结点,有向线段表示有向边:

③决策树模型可看成是:

1. if-then规则集合

决策树的if-then规则集合是由决策树的根结点到叶结点的每一条路径构建一条规则,路径上内部结点的特征是规则的条件,叶结点的类是规则的结论。

决策树的路径互斥并完备,即每个实例对应着有且仅有一条路径或规则

2.条件概率分布

决策树的条件概率分布是特征空间与类空间上的条件概率分布,即在分类时将结点的类分到条件概率大的一类

 

 三、决策树策略

策略:以损失函数为目标函数的最小化

引入正则化的极大似然函数作为损失函数,以便决策树模型不仅能对训练数据有很好的拟合,而且对未知数据有很好的预测

 

 四、决策树算法

1、决策树学习算法的过程

决策树学习算法的过程为:

递归地选择最优特征;

根据特征对训练数据进行分割;

使得对各个子数据集有一个最好的分类

 

 2、决策树的构建

决策树的构建过程为:

①构建根结点

将所有训练数据都放在根结点

②选择一个最优特征进行分类

a.如果分类后的子集能够被基本正确分类,那就构建叶结点,将子集分配到对应叶结点

b.如果还有子集不能被基本正确分类,那就重复步骤②,直至子集满足条件a或者没有合适的特征

构建的决策树模型可能出现对训练数据有很好的分类能力,但对未知测试数据的分类能力并不好的现象,即过拟合现象。当出现过拟合现象时,需对已生成的决策树自下而上进行剪枝,将树变得更简单,从而使其具有更好的泛化能力。

 

3、决策树的算法过程

决策树的算法过程包括:特征选择、决策树的生成、决策树的剪枝

决策树的生成只考虑局部最优,而决策树的剪枝则考虑全局最优

①特征选择

特征选择的标准是对训练数据具有分类能力,当利用这个特征进行分类的结果与随机分类的结果没有很大差别,我们说这个特征没有分类能力

特征选择的准则是信息增益和信息增益比:

a.信息增益

熵(entropy)是表示随机变量不确定性的度量,为

其中X是一个取有限个值得离散随机变量

经验熵(cond

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值