分类的R语言实现

最新推荐文章于 2024-07-20 09:40:11 发布

-Shonna-

最新推荐文章于 2024-07-20 09:40:11 发布

阅读量4.5k

点赞数 1

分类专栏： R入门机器学习算法入门数据挖掘入门

本文链接：https://blog.csdn.net/u010289316/article/details/51577289

版权

本文介绍了使用R语言进行分类的实践，涉及决策树、朴素贝叶斯、k-近邻（knn）和神经网络。通过预处理数据，使用caret和rpart包建立决策树模型并进行剪枝，评估模型的准确率和灵敏度。接着，运用klaR包实现朴素贝叶斯分类，以及caret包训练knn模型。最后提到了神经网络在分类中的应用。

摘要由CSDN通过智能技术生成

分类----------------------决策树、贝叶斯、knn、神经网络、集成学习、随机森林

set.seed(1)
data(PimaIndiansDiabetes2,package="mlbench")
data <- PimaIndiansDiabetes2
library(caret)
#预处理
preProcValues <- preProcess(data[,-9],method=c("center","scale"))
scaleddata <- predict(preProcValues,data[,-9])
#YeoJohnson转换----------------使数据接近正态分布，并减弱异常值的影响
preProcbox <- preProcess(scaleddata,method=c("YeoJohnson"))
#最后使用装袋算法进行缺失值插补，处理后的数据集名为procdata
boxdata <- predict(preProcbox,scaleddata)
#缺失值插补
preProcimp <- preProcess(boxdata,method="bagImpute")
procdata <- predict(preProcimp,boxdata)
procdata$class <- data[,9]

###################################################3

#1、决策树模型

决策树是一种简单易用的非参数分类器

不需要对数据有任何的先验假设，计算速度较快，结果容易解释，而且稳健性强，对噪声数据和缺失数据不敏感。

分类回归树（CART）

1）从n个自变量中寻找最佳分割变量和最佳分割点，将数据划分为两组

2）repeat。直到满足某种停止条件

这样反复分割数据后，使分组后的数据变得一致，纯度较高

同时可自动探测出复杂数据的潜在结构、重要模式和关系，探测出的知识又可用来构造精确和可靠的预测模型。

建立树模型可分为分类树和回归树两种

分类树用于因变量为分类数据的情况，树的末端为因变量的分类值

回归树则可以用于因变量为连续变量的情况，树的末端可以给出相应类别中的因变量描述或预测