机器学习实战之K近邻算法

K近邻算法是一种基于距离测量来分类的算法。该算法通过在训练集中寻找最接近的K个邻居来确定新数据的分类。这个过程中,邻居的数量和距离度量都是可以设置的。由于使用了距离度量,所以需要对数据的特征进行标准化和归一化处理。K近邻算法是一种简单的算法,但是对于大量数据的分类,它的运算速度会比较慢。

以下是一个基于K近邻算法的鸢尾花分类的实现:

鸢尾花数据集中一共包含3种不同的花种,即Setosa(山鸢尾)、Versicolour(杂色鸢尾)和Virginica(维吉尼亚鸢尾),每种花的记录数为50条,共计150条。每条记录都有4个特征,分别为花萼长度(sepal length)、花萼宽度(sepal width)、花瓣长度(petal length)和花瓣宽度(petal width)。这4个特征的单位都是厘米,同一花种的这4个特征值在数量级上相近。鸢尾花数据集的一个常见应用是分类问题。我们可以根据花萼和花瓣的长度和宽度等4个属性特征来预测鸢尾花属于哪一种。

 以下是具体实现过程:

import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier

iris = load_iris()
X = iris.data
y = iris.target

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

k = 5
knn = KNeighborsClassifier(n_neighbors=k)

knn.fit(X_train, y_train)

accuracy = knn.score(X_test, y_test)
print("Accuracy: {:.2f}%".format(accuracy * 100))

# 可视化分类结果
plt.scatter(X_test[:, 0], X_test[:, 1], c=knn.predict(X_test))
plt.xlabel("sepal length (cm)")
plt.ylabel("sepal width (cm)")
plt.title("KNN iris classification (k={})".format(k))
plt.show()

 在此基础上使用纯python编写knn算法:

class KNNClassifier:
    def __init__(self, k=5):
        self.k = k
    
    def fit(self, X_train, y_train):
        self.X_train = X_train
        self.y_train = y_train
    
    def predict(self, X_test):
        y_pred = []
        for i in range(len(X_test)):
            dist = []
            for j in range(len(self.X_train)):
                distance = math.sqrt(sum((X_test[i]-self.X_train[j])**2)) # 欧氏距离公式
                dist.append([distance, j])
            dist.sort(key=operator.itemgetter(0)) # 根据距离排序
            knn = []
            for n in range(self.k):
                knn.append(self.y_train[dist[n][1]]) # 取距离最小的k个点
            y_pred.append(max(set(knn), key=knn.count)) # 将出现次数最多的类别作为预测结果
        return y_pred

 其中,fit方法用于拟合训练数据,predict方法用于预测新数据。具体实现方法是计算测试数据和训练数据之间的欧氏距离,将距离最小的k个点的标签取出,统计各个标签出现的次数,最终将出现次数最多的标签作为预测结果。

最终分类结果:

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值