机器学习K-近邻算法研究

Melodycy456

已于 2024-04-01 22:36:08 修改

阅读量886

点赞数 22

文章标签：机器学习近邻算法人工智能

于 2024-04-01 22:30:07 首次发布

本文链接：https://blog.csdn.net/qq_73559660/article/details/137247503

版权

一、实验目的

本实验旨在通过实际操作和数据分析，深入理解K-近邻（K-Nearest Neighbors，KNN）算法的原理和应用。通过编程实现KNN算法，并对其性能进行评估，以便更好地掌握这种有监督学习方法在分类和回归问题中的应用。

二、实验原理

KNN算法是一种基于实例的学习，或是局部逼近和将所有计算推迟到分类之后的惰性学习。它的工作原理是：存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分类标签。一般来说，我们只选择样本数据集中前k个最相似的数据，这就是k-近邻算法中“k”的出处，通常k是不大于20的整数。最后，选择k个最相似数据中出现次数最多的分类，作为新数据的分类。

三、实验步骤

数据准备：收集并预处理数据，划分为训练集和测试集。
选择K值：通过交叉验证等方式确定合适的K值。
计算距离：使用欧氏距离或其他距离度量方式计算待分类样本与训练集中样本的距离。
找出K个最近邻：根据计算出的距离，找出与待分类样本最近的K个样本。
分类：根据K个最近邻的类别，通过投票法等方式确定待分类样本的类别。
评估性能：使用准确率、召回率等指标评估算法性能。

四、实验代码与运行结果

import numpy as np
import matplotlib.pyplot as plt
from collections import Counter

#定义训练集：
X_train = np.array([[1.2,2.8],
[1.9,3.7],
[2.5,3.8],
[4.8,7.9],
[9.7,2.6],
[5.6,7.8],
[10.8,2.7],
[13.7,22.7],
[5.48,14.82],
[11.23,17.16]])
Y_train = np.array([1,1,1,1,0,1,0,0,0,0])

#需判断样本：
x = np.array([6.653,10.849])

#计算距离：
distance = []
for x_train in X_train:
d = np.sqrt(np.sum((x-x_train)**2))
distance.append(d)

out = np.argsort(distance)

#定义k值：
k = 5

topK_y = [Y_train[i] for i in out[:k]]
r = Counter(topK_y)
s = r.most_common(1)[0][0]
print(s)

plt.scatter(X_train[Y_train==0,0],X_train[Y_train==0,1],c='g')
plt.scatter(X_train[Y_train==1,0],X_train[Y_train==1,1],c='r')
plt.scatter(x[0],x[1],c='b')
plt.show()

实验结果图

五、实验分析

通过编程实现KNN算法，并对不同数据集进行实验，我们得到了以下结果：

在选择合适的K值时，我们发现K值对算法性能有较大影响。K值过小可能导致过拟合，K值过大可能导致欠拟合。通过交叉验证，我们找到了每个数据集的最佳K值。
在不同数据集上，KNN算法的表现有所差异。对于某些数据集，KNN算法能够取得较高的分类准确率；但对于某些复杂或高维数据集，KNN算法的性能可能不佳。
在计算距离时，我们尝试了欧氏距离、曼哈顿距离等不同的距离度量方式，并发现不同的距离度量方式对算法性能也有一定影响。

六、实验总结与展望

通过本实验，我们深入了解了KNN算法的原理和应用，并通过编程实现了该算法。实验结果表明，KNN算法在分类问题中具有一定的有效性，但也需要根据具体数据集和任务进行调整和优化。

未来，我们可以进一步探索KNN算法的改进和优化方法，如使用不同的距离度量方式、优化K值选择算法等。此外，我们还可以将KNN算法与其他机器学习算法进行结合，以提高分类性能和泛化能力。

Melodycy456

关注

22
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
机器学习K-近邻算法研究

它的工作原理是：存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分类标签。一般来说，我们只选择样本数据集中前k个最相似的数据，这就是k-近邻算法中“k”的出处，通常k是不大于20的整数。未来，我们可以进一步探索KNN算法的改进和优化方法，如使用不同的距离度量方式、优化K值选择算法等。四、实验代码与运行结果。
复制链接

扫一扫