《R语言与数据挖掘》⑥-④分类与预测建模【KNN算法】

38 篇文章 28 订阅
7 篇文章 0 订阅

KNN 算法即K最近邻(k-Nearest Neighbor)分类算法,是一个理论上比较成熟的方法。
在这里插入图片描述

kknn()函数

在这里插入图片描述

knn()函数

在这里插入图片描述

train()函数

在这里插入图片描述


# KNN算法
setwd("F:\\桌面")  # 设置工作空间
Data <- read.csv("./test.txt",sep = '\t')  # 读入数据
Data[, "MN"] <- as.factor(Data[, "MN"])  # 将目标变量转换成因子型
set.seed(1234)  # 设置随机种子
# 数据集随机抽70%定义为训练数据集,30%为测试数据集
ind <- sample(2, nrow(Data), replace = TRUE, prob = c(0.7, 0.3))
traindata <- Data[ind == 1, ]
testdata <- Data[ind == 2, ]

# 使用kknn函数建立knn分类模型 
library(kknn)  # 加载kknn包
# knn分类模型
kknn.model <- kknn(MN ~ ., train = traindata, test = traindata, k = 5)  # 训练数据
kknn.model2 <- kknn(MN ~ ., train = traindata, test = testdata, k = 5)  # 测试数据
summary(kknn.model)  # 输出模型概要
# 预测结果
train_predict <- predict(kknn.model)  # 训练数据
test_predict <- predict(kknn.model2)  # 测试数据
# 输出训练数据的混淆矩阵
(train_confusion <- table(actual = traindata$MN, predictedclass = train_predict)) 
# 输出测试数据的混淆矩阵
(test_confusion <- table(actual = testdata$MN, predictedclass = test_predict))

# 使用knn函数建立knn分类模型
library(class)  # 加载class包
# 建立knn分类模型
knn.model <- knn(traindata, testdata, cl = traindata[, "MN"]) 
# 输出测试数据的混淆矩阵
(test_confusion = table(actual = testdata$MN, predictedclass = knn.model))

# 使用train函数建立knn分类模型
library(caret)  # 加载caret包
# 建立knn分类模型
train.model <- train(traindata, traindata[, "MN"], method = "knn")
# 预测结果
train_predict <- predict(train.model, newdata = traindata)      #训练数据集
test_predict <- predict(train.model, newdata = testdata)       #测试数据集
# 输出训练数据的混淆矩阵
(train_confusion <- table(actual = traindata$MN, predictedclass = train_predict))
# 输出测试数据的混淆矩阵
(test_confusion <- table(actual = testdata$MN, predictedclass = test_predict))


  • 2
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
#Something about the data mining 数据挖掘(Data mining):是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器 学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。 数据分析十大经典算法: 1.Apriori :是一种最有影响的挖掘布尔关联规则频繁项集的算法。 2.C4.5:是机器学习算法中的一种分类决策树算法,其核心算法是 ID3 算法。 3. Naive Bayes:在众多分类方法中,应用最广泛的有决策树模型和朴素贝叶斯(Naive Bayes) 4. K-means 算法:是一种聚类算法 5. SVM:一种监督式学习方法,广泛应用于统计分类以及回归分析中 6.CART:分类与回归树,下面有两个关键的思想,第一个是关于递归地划分自变量空间的想法,第二个是用验证数据进行减枝 7. KNN:是一个理论上比较成熟的的方法,也是最简单的机器学习方法之一。 8. Pagerank:是 google 算法的重要内容。 9. adaboost:是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器然后把弱分类器集合起来,构成一个更强的最终分类器。 10. EM:最大期望值法。 注意:十大算法大概分类: KNN,决策树(以 C4.5)为例,SVM,AdaBoost,CART,Naive Bayes 都是分类作为目的的算法 而 K-means 是最常见的聚类算法;Apiori 是关联规则挖掘算法;EM 是一种概率模型参数的算 法;PageRank 是一种链接分析的算法,主要用于图数据里,对结点重要性进行排名.

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Wency(王斯-CUEB)

我不是要饭的

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值