R语言-决策树-party包

最新推荐文章于 2024-03-31 01:07:02 发布

MapC

最新推荐文章于 2024-03-31 01:07:02 发布

阅读量7.6k

点赞数 2

分类专栏： R语言文章标签： r语言 R 决策树

本文链接：https://blog.csdn.net/symoriaty/article/details/78396941

版权

本文介绍了使用R语言的party包构建决策树的方法，探讨了决策树中如何通过熵和吉尼系数来衡量样本纯度，并以readingskills数据集为例，展示了构建nativespeaker决策树的R代码。

摘要由CSDN通过智能技术生成

1、首先解释下熵和吉尼系数在决策树的功用

决策树学习的关键是如何选择最优的划分属性。通常，随着划分过程的不断进行，我们希望决策树的内部分支节点所包含的样本尽可能属于同一类别，即节点的“纯度”越来越高。

“熵”是衡量样本数据集纯度最常用的一种指标。熵值越小，则样本的纯度越高，或者说样本的杂乱程度越小。

“吉尼系数”也可以用来衡量样本数据集的纯度。吉尼系数越小，则表示该节点可以有效的把同一类聚集在一起。反之，分割后的类别越杂乱，则吉尼系数会越大。在决策树生成时，当用到吉尼系数这个方法时，通常会计算每一个特征的吉尼系数，接着比较各个特征下的吉尼系数，系数越小的特征越适合先作为内部节点。

2、party包，readingskills数据，建立nativespeaker决策树

直接放R语言代码

#install.packages(“rpart”) #安装party包，只需在首次运行改脚本时安装
library("party") #调出party包
mydata <- readingSkills #将readingSkills数据存储在mydata里头
names(mydata) #查看mydata中有几个变量
str(mydata) #查看每个变量的数据结构
summary(mydata) #计算各变量的基本描述性统计量


plot(x = mydata$shoeSize, y = mydata$score, 
     xlab = "shoeSize",
     ylab = "score",
     main = "shoeSize VS score")  #画shoeSize和score散点图，X轴是shoeSi