推荐系统--------------决策树算法(ID3与C4.5)

本文介绍了决策树算法的基础知识,包括其作为分类模型的工作原理、结构组成以及信息增益和熵的概念。重点讲解了ID3算法如何选择最优属性进行分裂,并讨论了C4.5算法如何改进ID3的不足,以应对特征值过多导致的决策准确性问题。
摘要由CSDN通过智能技术生成

决策树算法-属于分类算法
是利用训练样本集获得分类函数即分类模型(分类器)。从而实际讲数据集中的样本划分倒各个类中。分类模型通过学习训练样本中的属性集与类别之间的潜在关系,并一次为依据对新样本属于哪一类进行预测
决策树通过把数据样本分配倒某个叶子节点确定数据集中样本所属的分类中,
决策树有决策点,分支和叶子节点组成

  • 决策树节点表示在样本的一个属性上进行的划分
  • 分支表示对于决策节点进行划分的输出
  • 叶节点代表经过分支到达的类

从决策树根节点出发,自顶向下移动,在每个决策节点都会进行次划分,通过划分的结果讲样本进行分类,导致不同的分支,最后到达叶子节点,这个过程就是利用决策树进行分类的过程

在这里插入图片描述
决策树中主要就是决定那个特征值作为根节点,确定有几个树值
这里介绍关于决策树中几种常见的算法:
ID3算法:
–在每个节点处选取能获得最高信息增益的分支属性进行分裂
在每个决策结点处划分分支,选取分支属性的目的是为了整个决策树的样本纯度提升
衡量样本集合纯度的指标是:熵
[信息增益:在概率论和信息论中,信息增益是非对称的,用以度量两种概率分布P和Q的差异。信息增益描述了当使用Q进行编码时,再使用P进行编码的差异。通常P代表样本或观察值的分布,也有可能是精确计算的理论分布。Q代表一种理论,模型,描述或者对P的近似。
尽管信息增益通常被直观地作为是一种度量或距离,但事实上信息增益并不是。就比如信息增益不是对称的,从P到Q的信息增益

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值