R语言实现决策树算法

Hs_cherry

于 2017-06-17 16:05:19 发布

阅读量5.6k

点赞数 8

分类专栏： r语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Hs_cherry/article/details/73381306

版权

本文介绍了如何在R语言中实现决策树算法，包括决策树的基本概念、信息熵、信息增益和基尼指数等关键概念，并详细阐述了如何在R中选择特征以及安装和使用rpart和party包来构建决策树。

摘要由CSDN通过智能技术生成

决策树算法的R实现

根据ppvk上的文章《基于 R 语言和 SPSS 的决策树算法介绍及应用》，只简单跑了关于R部分的代码，实验成功，简单记录下。

决策树算法简介
R语言实现

决策树算法

决策树算法是一种典型的分类方法，首先对数据进行处理，利用归纳算法生成可读的规则和决策树，然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。
一个简单的决策树示例（图片来源网络）(https://book.douban.com/subject/26708119/)）:
这里写图片描述
决策树由节点和有向边组成，内部节点代表了特征属性，外部节点（叶子节点）代表了类别，根据一步步地属性分类可以将整个特征空间进行划分，从而区别出不同的分类样本。好的决策树不仅对训练样本有着很好的分类效果，对于测试集也有着较低的误差率。

数据集纯度函数

信息增益
信息熵表示的是不确定度。均匀分布时，不确定度最大，此时熵就最大。当选择某个特征对数据集进行分类时，分类后的数据集信息熵会比分类前的小，其差值表示为信息增益。
假设在样本数据集 D 中，混有 c 种类别的数据。构建决策树时，根据给定的样本数据集选择某个特征值作为树的节点。
在数据集中，可以计算出该数据中的信息熵：其中 D 表示训练数据集，c 表示数据类别数，Pi 表示类别 i 样本数量占所有样本的比例。
作用前的信息熵公式

对应数据集 D，选择特征 A 作为决策树判断节点时，在特征 A 作用后的信息熵的为 Info(D)，其中 k 表示样本 D 被分为 k 个部分。
InfoA(D)=−∑ci=1∣∣Dj

最低0.47元/天解锁文章

关注

8
点赞
踩
48

收藏

觉得还不错? 一键收藏
0
评论
R语言实现决策树算法

决策树算法简介R语言实现决策树算法决策树算法是一种典型的分类方法，首先对数据进行处理，利用归纳算法生成可读的规则和决策树，然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。决策树
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。