机器学习实战之K近邻算法

最新推荐文章于 2024-07-25 11:18:29 发布

七年油兵swpuer

最新推荐文章于 2024-07-25 11:18:29 发布

阅读量62

点赞数

文章标签：机器学习分类算法

本文链接：https://blog.csdn.net/m0_64553191/article/details/130824583

版权

K近邻算法是一种基于距离测量来分类的算法。该算法通过在训练集中寻找最接近的K个邻居来确定新数据的分类。这个过程中，邻居的数量和距离度量都是可以设置的。由于使用了距离度量，所以需要对数据的特征进行标准化和归一化处理。K近邻算法是一种简单的算法，但是对于大量数据的分类，它的运算速度会比较慢。

以下是一个基于K近邻算法的鸢尾花分类的实现：

鸢尾花数据集中一共包含3种不同的花种，即Setosa（山鸢尾）、Versicolour（杂色鸢尾）和Virginica（维吉尼亚鸢尾），每种花的记录数为50条，共计150条。每条记录都有4个特征，分别为花萼长度（sepal length）、花萼宽度（sepal width）、花瓣长度（petal length）和花瓣宽度（petal width）。这4个特征的单位都是厘米，同一花种的这4个特征值在数量级上相近。鸢尾花数据集的一个常见应用是分类问题。我们可以根据花萼和花瓣的长度和宽度等4个属性特征来预测鸢尾花属于哪一种。

以下是具体实现过程：

import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier

iris = load_iris()
X = iris.data
y = iris.target

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

k = 5
knn = KNeighborsClassifier(n_neighbors=k)

knn.fit(X_train, y_train)

accuracy = knn.score(X_test, y_test)
print("Accuracy: {:.2f}%".format(accuracy * 100))

# 可视化分类结果
plt.scatter(X_test[:, 0], X_test[:, 1], c=knn.predict(X_test))
plt.xlabel("sepal length (cm)")
plt.ylabel("sepal width (cm)")
plt.title("KNN iris classification (k={})".format(k))
plt.show()

在此基础上使用纯python编写knn算法：

class KNNClassifier:
    def __init__(self, k=5):
        self.k = k
    
    def fit(self, X_train, y_train):
        self.X_train = X_train
        self.y_train = y_train
    
    def predict(self, X_test):
        y_pred = []
        for i in range(len(X_test)):
            dist = []
            for j in range(len(self.X_train)):
                distance = math.sqrt(sum((X_test[i]-self.X_train[j])**2)) # 欧氏距离公式
                dist.append([distance, j])
            dist.sort(key=operator.itemgetter(0)) # 根据距离排序
            knn = []
            for n in range(self.k):
                knn.append(self.y_train[dist[n][1]]) # 取距离最小的k个点
            y_pred.append(max(set(knn), key=knn.count)) # 将出现次数最多的类别作为预测结果
        return y_pred

其中，fit方法用于拟合训练数据，predict方法用于预测新数据。具体实现方法是计算测试数据和训练数据之间的欧氏距离，将距离最小的k个点的标签取出，统计各个标签出现的次数，最终将出现次数最多的标签作为预测结果。

最终分类结果：

七年油兵swpuer

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
机器学习实战之K近邻算法

鸢尾花数据集中一共包含3种不同的花种，即Setosa（山鸢尾）、Versicolour（杂色鸢尾）和Virginica（维吉尼亚鸢尾），每种花的记录数为50条，共计150条。这4个特征的单位都是厘米，同一花种的这4个特征值在数量级上相近。这个过程中，邻居的数量和距离度量都是可以设置的。K近邻算法是一种简单的算法，但是对于大量数据的分类，它的运算速度会比较慢。具体实现方法是计算测试数据和训练数据之间的欧氏距离，将距离最小的k个点的标签取出，统计各个标签出现的次数，最终将出现次数最多的标签作为预测结果。
复制链接

扫一扫