R教材11.1 分类与决策树

最新推荐文章于 2024-05-20 20:30:45 发布

Lang Grass

最新推荐文章于 2024-05-20 20:30:45 发布

阅读量502

点赞数

分类专栏： R in Action

本文链接：https://blog.csdn.net/u013103305/article/details/83479154

版权

本文介绍了使用R语言进行分类任务，特别是决策树的构建和优化。内容涵盖有监督学习，利用rpart、randomForest和e1071等包进行建模，通过设置split参数调整树的构建方式，并探讨了k折交叉验证、剪枝策略以及条件推断树的使用。通过plotcp和prune函数优化决策树，提高模型预测准确性。

摘要由CSDN通过智能技术生成

分类目的：根据一组预测变量来预测相对应的分类结果，实现对新出单元的准确分类
有监督学习：基于已知类的数据样本，将全部数据分为训练集和验证集
用到的包：rpart，rpart.plot，party，randomForest，e1071
随机抽样：
1. set.seed(1234)
2. sample(nrow(对象),present*nrow(对象))，结果是抽样的内置ID
  1. sample(数据对象,抽样个数)数据对象可以是连续数据或数据分布
逻辑回归glm()，自动将预测变量中的分类变量编码为数值型，广义线性模型
1. glm(formula,data,family)，family指连接函数，数据服从的分布类型，binomial二项分布（在每次试验中只有两种可能的结果，而且两种结果发生与否互相对立，并且相互独立，与其它各次试验结果无关），模型按数值大小分01，模型再将假设结果为正负
2. predict(fit,data,type="response")
  1. response按数据正负转化为概率0~1
  2. class即输出变量为分类类型
3. table(class1,class2,dnn=c())，dnn为维度名，class分类类型
4. step(fit)，模型的逐步法，去除多余的属性
决策树：默认二分树算法
1. 经典树：不希望有大量的测试条件的划分，即CART算法，二分树࿰

最低0.47元/天解锁文章

Lang Grass

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
R教材11.1 分类与决策树

分类目的：根据一组预测变量来预测相对应的分类结果，实现对新出单元的准确分类有监督学习：基于已知类的数据样本，将全部数据分为训练集和验证集用到的包：rpart，rpart.plot，party，randomForest，e1071 随机抽样： set.seed(1234) sample(nrow(对象),present*nrow(对象))，结果是抽样的内置ID sample(数据...
复制链接

扫一扫

专栏目录