R语言学习笔记—决策树分类

最新推荐文章于 2023-10-02 19:12:06 发布

weixin_30776863

最新推荐文章于 2023-10-02 19:12:06 发布

阅读量742

点赞数 1

文章标签： r语言数据结构与算法

原文链接：http://www.cnblogs.com/wxyz94/p/8977264.html

版权

本文介绍了决策树分类算法的基础知识，包括ID3算法的实现步骤。通过R语言展示了如何利用天气数据来构建决策树，以预测是否去打球。文章详细解释了熵、信息增益的概念，并给出了具体代码实现。

摘要由CSDN通过智能技术生成

一、简介

决策树分类算法（decision tree）通过树状结构对具有某特征属性的样本进行分类。其典型算法包括ID3算法、C4.5算法、C5.0算法、CART算法等。每一个决策树包括根节点（root node），内部节点（internal node）以及叶子节点（leaf node）。

根节点：表示第一个特征属性，只有出边没有入边，通常用矩形框表示。

内部节点：表示特征属性，有一条入边至少两条出边，通常用圆圈表示。

叶子节点：表示类别，只有一条入边没有出边，通常用三角表示。

决策树算法主要用于分类，也可用于回归，当决策树的输出变量是分类变量时，是分类树；当决策树输出变量是连续变量时，是回归树。虽然回归树的因变量是连续的，但叶节点数是有穷的，因此输出值也是这个叶节点上观测值的平均。

二、基本思想

决策树算法基本思想可以归纳如下：

第一步，对特征空间按照特征属性进行划分；

第二步，对分类后的子集递归第一步。

分类过程看起来很简单，但是要想得到【完全纯净】的子集，也就是每一个子集中的样本都属于同一个分类，还需要一个评价指标对分类效果好坏进行评估——熵。

熵，是系统一种无组织、无序的状态，广泛应用于信息论中。熵值越大，表明数据的纯度越低。当熵等于0，表明样本数据都是同一个类别。其计算公式如下：

其中，P(Xi)表示概率，b此处取值为2。熵的单位为比特bite。

信息增益（information gain）：代表的是一次划分对数据纯度的提升效果，也就是划分以后，熵减少越多，说明增益越大，那么这次划分也就越有价值，增益的计算公式如下：

其中D表示样本集，假定属性a有v个可能的取值（离散或连续）。进行最有划分属性时，比如先找到了属性a，对a进行评价，接下来对其他属性重复a的过程，分别得到一个评分，选择评分最高的那个，即信息增益最大的作为最有划分属性。简言之，信息增益就是分割属性前的熵值与分割后的熵值进行差异比较。

需要注意的是，计算子集的熵之和需要乘上各个子集的权重，权重的计算方法是子集的规模占分割前父集的比重。如，分割前的熵为e，分割子集为a和b，大小分别为m和n，熵分别为e1和e2，则信息增益为e-e1*m/(m+n)-e2*n/(m+n)。

三、ID3算法实现

分类的本质是对特征空间的划分。根据决策树的基本思想，其算法实现主要有以下三步：

1.选择特征属性，样本分割。

2.计算信息增益，选取最大增益作为决策树的子节点。

3.递归执行上两步，直至分类完成。

下面将介绍ID3算法在R语言中实现过程。

一组14天天气数据(指标包括outlook，temperature，humidity，windy)，并已知这些天气是否打球(play)。如果给出新一天的气象指标数据:sunny,cool,high,TRUE，判断一下会不会去打球。

Outlook	temperature	humidity	windy	play
Sunny

关注