knn分类

最新推荐文章于 2024-07-27 15:01:17 发布

柳三眠

最新推荐文章于 2024-07-27 15:01:17 发布

阅读量766

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_35100645/article/details/70849205

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

概述

knn（k近邻）是机器学习比较常用的算法，也是一个比较简单的算法，其工作机制非常简单：给定测试样本，基于某种距离度量找出训练集与其最靠近的k个训练样本，然后基于这k个邻居的信息来进行预测。在分类中，选择这k个样本中出现最多的类别标记作为预测结果；而在回归中，则用这k个样本的平均值作为预测结果。也可以基于距离远近进行加权平均和加权投票，距离越近权重越大。这次基于kaggle上的数字识别器讲解其分类用法。

距离度量

knn中使用的距离一般是欧式距离，但也可以使其它距离，比如更一般的 $L_p$ 距离
设特征空间 $\chi$ 是 $n$ 维实数向量空间 $R^n$ ， $x_i, x_j\in\chi, x_i=(x_i^{(1)},x_i^{(2)}, ...,x_i^{(n)})^T, x_j=(x_j^{(1)},x_j^{(2)}, ...,x_j^{(n)})^T, x_i, x_j$ 的 $L_p$ 距离定义为
${L_p}({x_i},{x_j}) = {(\sum\limits_{l = 1}^n {{{\left| {x_i^{(l)} - x_j^{(l)}} \right|}^p}} )^{\frac{1}{p}}}$
这里 $p\ge 1$ .当 $p = 2$ 时，称为欧式距离，即
${L_2}({x_i},{x_j}) = {(\sum\limits_{l = 1}^n {{{\left| {x_i^{(l)} - x_j^{(l)}} \right|}^2}} )^{\frac{1}{2}}}$
当 $p = 1$ 时，称为曼哈顿距离，即
${L_1}({x_i},{x_j}) = {\sum\limits_{l = 1}^n {{{\left| {x_i^{(l)} - x_j^{(l)}} \right|}}} }$
当 $p=\infty$ 时，它是各个坐标距离的最大值，即
${L_\infty }({x_i},{x_j}) = \mathop {\max }\limits_l \left| {x_i^{(l)} - x_j^{(l)}} \right|$

分类决策

knn在分类时是有多数表决投票所决定，如果分类的损失函数为0-1损失函数，分类函数为
$f:{R^n} \to { {c_1},{c_2},…,{c_n}} $
那么误分类的概率是
$P(Y\not = f(X))=1-P(Y=f(X))$
那么对于给定的实例 $x$ ，其最近的k个训练点构成集合 $N_k(x)$ .如果涵盖 $N_k(x)$ 的区域类别是 $c_j$ ，那么误分类率为
$\frac{1}{k}\sum\limits_{{x_i} \in {N_k}(x)} {I({y_i} \ne {c_j}) = 1 - } \frac{1}{k}\sum\limits_{{x_i} \in {N_k}(x)} {I({y_i} = {c_j})} $
所以为了保证误分类率最小，即让 $\sum\limits_{{x_i} \in {N_k}(x)}I({y_i} = {c_j})$ 最小，所以多数表决投票也相当于一种风险最小化

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_csv("D:/train.csv")
a = df.loc[0]
a = np.array(a)
a = a[1:785]
a.resize(28, 28)
plt.imshow(a, cmap='gray')

首先导入数据（28*28的图片），将其可视化，结果为

from sklearn.model_selection import train_test_split
from sklearn.decomposition import PCA
from sklearn.neighbors import KNeighborsClassifier
Labels = df['label']
Features = df.iloc[0:42000,1:785]
m, n = np.shape(Features)
Features = np.multiply(Features != np.zeros((m,n)), np.ones((m,1)))
pca = PCA(n_components=128)
reduced_features = pca.fit_transform(Features)
X_train, X_test, label_train, label_test = train_test_split(reduced_features, Labels, test_size = 0.3)

for k in range(1,11):
    clf = KNeighborsClassifier(k)
    clf.fit(X_train, label_train)
    result = clf.predict(X_test)
    print(k, ':', clf.score(X_test, label_test))

接下来将数据分为训练集和测试集，然后运行knn，调整K值以寻找准确率最高的k值是多少，结果为

在这里可见当k=4时泛化效果最好，精度可以达到0.966，接下来看一下当k=4时分类报告

clf = KNeighborsClassifier(4)
clf.fit(X_train, label_train)
result = clf.predict(X_test)
print('准确率', accuracy_score(label_test, result))
print('混淆矩阵', confusion_matrix(label_test, result))
print('分类报告', classification_report(label_test, result))

结果为

混淆矩阵