K近邻法（K-nearest neighbor,K-NN）—有监督学习方法、非概率模型、判别模型、线性模型、非参数化模型、批量学习、核方法

剑海风云

已于 2024-09-09 21:36:12 修改

阅读量1k

点赞数 29

分类专栏： Artificial Intelligence 文章标签：人工智能机器学习 K近邻法 KNN

于 2024-09-07 15:37:57 首次发布

本文链接：https://blog.csdn.net/nanxiaotao/article/details/141996842

版权

Artificial Intelligence 专栏收录该内容

21 篇文章 0 订阅

订阅专栏

定义

输入：训练数据集（T= $\left\{(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)\right\}$ ）

             其中：

                        $x_i \in {\tt \chi} \subseteq R^n$ :实例的特征向量

                        $y_i \in {\tt y}$ $\{c_1,c_2,\cdots,c_k \}$ :实例的类别， $i=1,2,\cdots,N$

                        $x$ :实例特征向量

输出：实例 $x$ 所属的类 $y$

(1)根据给定的距离度量，在训练集T中找出与 $x$ 最近邻的 $k$ 个点，涵盖这 $k$ 个点的 $x$ 的邻域记作 $N_k(x)$

(2)在 $N_k(x)$ 中根据分类决策规则（如多数表决）决定 $x$ 的类别 $y$
$y=argmax_{c_j}\sum_{x_i \in N_k(x)}I(y_i=c_j),i=1,2,\dots,N;j=1,2,\dots,K$

指示函数： $I(y_i=c_j):\begin{cases} 1; y_i=c_j \\ 0 ;y_i \neq c_j \end{cases}$

输入空间

T= $\left\{(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)\right\}$

import numpy as np
import time
start = time.time()
def loadData(fileName,lines=60000):
    '''
    加载Mnist数据集 下载地址：https://download.csdn.net/download/nanxiaotao/89720991）
    :param fileName:要加载的数据集路径
    :return: 数据集
    '''
    # 定义数据集
    dataSet = np.zeros((lines, 785))
    #读取文件
    fr = open(fileName)
    #遍历文件中的每一行
    i = 0
    for line in fr.readlines():
        curLine = line.strip().split(',')
        x = [int(num) for num in curLine[1:]]
        y=int(curLine[0])
        dataSet[i] = np.append(x, y)
        i=i+1
    #返回数据集
    return dataSet

train_dataSet = loadData('../Mnist/mnist_train.csv')

np.shape(train_dataSet)

特征空间（Feature Space）

train_dataSet[0][0:784]

统计学习方法

模型

$y_i=f(trainDataSet,x_i,topK),x_i \in {\tt \chi} \subseteq R^n,y_i \in {\tt y} = \{c_1,c_2,\cdots,c_k \}$

策略

距离度量

$x_i,x_j \in \chi,x_i=(x_i^{(1)},x_i^{(2)},\cdots,x_i^{(n)})^T,x_j=(x_j^{(1)},x_j^{(2)},\cdots,x_j^{(n)})^T$

$L_p (x_i,x_j)=\left(\sum_{l=1}^{n}\left| x_i^{(l)}-x_j^{(l)} \right|^p\right)^{\frac{1}{p}}$

欧式距离（Euclidean Distance）

$L_2 (x_i,x_j)=\left(\sum_{l=1}^{n}\left| x_i^{(l)}-x_j^{(l)} \right|^2\right)^{\frac{1}{2}}$

曼哈顿距离（Manhattan Distance）

$L_1 (x_i,x_j)=\sum_{l=1}^{n}\left| x_i^{(l)}-x_j^{(l)} \right|$

各个坐标距离的最大值

$L_{\infty} (x_i,x_j)=max_{l}\left| x_i^{(l)}-x_j^{(l)} \right|$

K值的选择

k值一般选择较小的值，交叉验证法来选取最优的k值

分类决策规则

多数表决规则（Majority Voting Rule）

分类函数： $f:R^n \Rightarrow \left\{ c_1,c_2,\cdots,c_K \right\}$

误分类率： $\frac{1}{k}\sum_{x_i \in N_k{(x)}} I(y_i \ne c_j)=1-\frac{1}{k}\sum_{x_i \in N_k{(x)}}I(y_i = c_j)$

算法

$L_2 (x_i,x_j)=\left(\sum_{l=1}^{n}\left| x_i^{(l)}-x_j^{(l)} \right|^2\right)^{\frac{1}{2}}$

$max(\sum_{x_i \in N_k{(x)}}I(y_i = c_j))$

def calcDist(x1, x2):
    '''
    计算两个样本点向量之间的距离
    :param x1:向量1
    :param x2:向量2
    :return:向量之间的欧式距离
    '''
    return np.sqrt(np.sum(np.square(x1 - x2)))

def getClosest(train_dataSet, x, topK):
    '''
    预测样本x的标记
    :param train_dataSet:训练数据集
    :param x:要预测的样本x
    :param topK:选择参考最邻近样本的数目
    :return:预测的标记
    '''
    trainDataMat = np.mat(train_dataSet[:,0:784]); 
    #trainLabelMat = np.mat(train_dataSet[:,784:785]).T
    trainLabelMat = np.mat(train_dataSet[:,784:785])
    distList = [0] * len(trainLabelMat)
    for i in range(len(trainDataMat)):
        x1 = trainDataMat[i]
        curDist = calcDist(x1, x)
        distList[i] = curDist

    topKList = np.argsort(np.array(distList))[:topK]        #升序排序
    labelList = [0] * 10
    #对topK个索引进行遍历
    for index in topKList:
        labelList[int(trainLabelMat[index])] += 1
    return labelList.index(max(labelList))

假设空间（Hypothesis Space）

$\left\{f|f(x) = argmax_{c_j}\sum_{x_i \in N_k(x)}I(y_i=c_j),i=1,2,\dots,N;j=1,2,\dots,K \right\}$

输出空间

${\tt y}$ $\{c_1,c_2,\cdots,c_k \}$

模型评估

训练误差（Training Error）

test_dataSet = loadData('../Mnist/mnist_test.csv',10000)

np.shape(test_dataSet)

def model_test(train_dataSet, test_dataSet, topK):
    '''
    测试正确率
    :param train_dataSet:训练集数据集
    :param test_dataSet: 测试集数据集
    :param topK: 选择多少个邻近点参考
    :return: 正确率
    '''
    testDataMat = np.mat(test_dataSet[:,0:784]); 
    testLabelMat = np.mat(test_dataSet[:,784:785])

    #错误值技术
    errorCnt = 0

    for i in range(200):
        print('test %d:%d' % (i, 200))
        #读取测试集当前测试样本的向量
        x = testDataMat[i]
        #获取预测的标记
        y = getClosest(train_dataSet, x, topK)
        #如果预测标记与实际标记不符，错误值计数加1
        if y != testLabelMat[i]: errorCnt += 1

    #返回正确率
    return 1 - (errorCnt / 200)

#计算测试集正确率
accur = model_test(train_dataSet, test_dataSet, 25)
#打印正确率
print('accur is:%d'%(accur * 100), '%')

测试误差（Test Error）

模型选择

过拟合

正则化

泛化能力

剑海风云

关注

29
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录