K近邻算法是一种基于距离测量来分类的算法。该算法通过在训练集中寻找最接近的K个邻居来确定新数据的分类。这个过程中,邻居的数量和距离度量都是可以设置的。由于使用了距离度量,所以需要对数据的特征进行标准化和归一化处理。K近邻算法是一种简单的算法,但是对于大量数据的分类,它的运算速度会比较慢。
以下是一个基于K近邻算法的鸢尾花分类的实现:
鸢尾花数据集中一共包含3种不同的花种,即Setosa(山鸢尾)、Versicolour(杂色鸢尾)和Virginica(维吉尼亚鸢尾),每种花的记录数为50条,共计150条。每条记录都有4个特征,分别为花萼长度(sepal length)、花萼宽度(sepal width)、花瓣长度(petal length)和花瓣宽度(petal width)。这4个特征的单位都是厘米,同一花种的这4个特征值在数量级上相近。鸢尾花数据集的一个常见应用是分类问题。我们可以根据花萼和花瓣的长度和宽度等4个属性特征来预测鸢尾花属于哪一种。
以下是具体实现过程:
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
iris = load_iris()
X = iris.data
y = iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
k = 5
knn = KNeighborsClassifier(n_neighbors=k)
knn.fit(X_train, y_train)
accuracy = knn.score(X_test, y_test)
print("Accuracy: {:.2f}%".format(accuracy * 100))
# 可视化分类结果
plt.scatter(X_test[:, 0], X_test[:, 1], c=knn.predict(X_test))
plt.xlabel("sepal length (cm)")
plt.ylabel("sepal width (cm)")
plt.title("KNN iris classification (k={})".format(k))
plt.show()
在此基础上使用纯python编写knn算法:
class KNNClassifier:
def __init__(self, k=5):
self.k = k
def fit(self, X_train, y_train):
self.X_train = X_train
self.y_train = y_train
def predict(self, X_test):
y_pred = []
for i in range(len(X_test)):
dist = []
for j in range(len(self.X_train)):
distance = math.sqrt(sum((X_test[i]-self.X_train[j])**2)) # 欧氏距离公式
dist.append([distance, j])
dist.sort(key=operator.itemgetter(0)) # 根据距离排序
knn = []
for n in range(self.k):
knn.append(self.y_train[dist[n][1]]) # 取距离最小的k个点
y_pred.append(max(set(knn), key=knn.count)) # 将出现次数最多的类别作为预测结果
return y_pred
其中,fit
方法用于拟合训练数据,predict
方法用于预测新数据。具体实现方法是计算测试数据和训练数据之间的欧氏距离,将距离最小的k个点的标签取出,统计各个标签出现的次数,最终将出现次数最多的标签作为预测结果。
最终分类结果: