【决策树】ID3算法理解与R语言实现

Gavin姓陈

已于 2022-12-26 16:59:49 修改

阅读量8.9k

点赞数 3

分类专栏：数据分析-算法模型数据分析-R 文章标签：数据分析 Rstudio 决策树算法 r语言

于 2017-12-20 18:54:09 首次发布

本文链接：https://blog.csdn.net/glodon_mr_chen/article/details/78856398

版权

本文深入解析决策树算法，通过相亲案例解释决策树原理，并介绍信息熵和信息增益的概念。利用R语言实现ID3算法，包括R自带包和自定义函数的应用，展示在iris数据集上的分类效果。

摘要由CSDN通过智能技术生成

一、算法理解

想来想去，还是决定用各大畅销书中的相亲例子来解释什么叫决策树。

简单来说，决策树就是根据各种变量，作为输入条件，最终输出决策的过程。比如上图中女方在相亲过程中，影响是否见男方的变量有年龄、长相、收入、是否是公务员等。

最终在各种变量组合下，最终输出见或不见的决策。

下边是决策树的一种定义：

决策树（decision tree）是一个树结构（可以是二叉树或非二叉树）。其每个非叶节点表示一个特征属性上的测试，每个分支代表这个特征属性在某个值域上的输出，而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为决策结果。

二、数学公式

对于决策树有大体认识后，我们来讨论其背后的包含的数学理论支撑，主要是信息论中的信息。为了理解，我们需要了解两个数学概念。

信息熵：熵是无序性（或不确定性）的度量指标。假如事件A的全概率划分是（A1,A2,...,An），每部分发生的概率是(p1,p2,...,pn)，那信息熵的公式如下：