决策树

最新推荐文章于 2022-11-04 17:04:58 发布

XIUXIU179

最新推荐文章于 2022-11-04 17:04:58 发布

阅读量776

点赞数 1

分类专栏： R语言与数据挖掘

本文链接：https://blog.csdn.net/XIUXIU179/article/details/79957527

版权

本文介绍了使用R的party和rpart包构建决策树的方法。首先，在iris数据集上使用party包，通过设定随机种子划分训练和测试集，构建决策树并查看预测结果。接着，对bodyfat数据集进行同样的处理，基于rpart包选择最小预测误差的决策树，并进行预测，评估预测效果。

摘要由CSDN通过智能技术生成

1. 使用party包构建决策树

决策树(Decision Tree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。
由于这种决策分支画成图形很像一棵树的枝干，故称决策树。在机器学习中，决策树是一个预测模型，他代表的是对象属性与对象值之间的一种映射关系。Entropy = 系统的凌乱程度，使用算法ID3, C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。

决策树是一种树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。分类树（决策树）是一种十分常用的分类方法。他是一种监管学习，所谓监管学习就是给定一堆样本，每个样本都有一组属性和一个类别，这些类别是事先确定的，那么通过学习得到一个分类器，这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习。

在建模之前，将iris数据集划分为两个子集：其中70%的数据用于训练，剩下的30%用于测试。为了获得可重现的结果，随机种子设定为固定值。

> str(iris)
'data.frame':	150 obs. of  5 variables:
 $ Sepal.Length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
 $ Sepal.Width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
 $ Petal.Length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
 $ Petal.Width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
 $ Species     : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...
> set.seed(1234)
> ind <- sample(2, nrow(iris), replace = TRUE, prob = c(0.7, 0.3))

> trainData <- iris[ind ==1,]

> testData <- iris[ind==2,]

加载party包并建立一颗决策树，然后查看预测结果。myFormula指定了Species为目标变量，其余的所有变量为自变量。

> library(party)
载入需要的程辑包：grid
载入需要的程辑包：mvtnorm
载入需要的程辑包：modeltools
载入需要的程辑包：stats4
载入需要的程辑包：strucchange
载入需要的程辑包：zoo

最低0.47元/天解锁文章

XIUXIU179

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录