机器学习笔记（3）——K近邻法

最新推荐文章于 2023-03-13 20:57:56 发布

Lyndon_zheng

最新推荐文章于 2023-03-13 20:57:56 发布

阅读量1.1k

点赞数

分类专栏： Machine_learning 文章标签：机器学习 kNN Python

本文链接：https://blog.csdn.net/zx10212029/article/details/49246213

版权

Machine_learning 专栏收录该内容

12 篇文章 3 订阅

订阅专栏

K-nearest neighbor（KNN）

$k$ 近邻法一种基本的分类与回归方法，原理和实现都比较直观。其输入为样本的特征向量，输出为样本的类别，可以进行多类别分类。k近邻法是通过统计与未知样本最近点的训练样本的类别来投票决定未知样本的类别，不具有显式的学习过程。 $k$ 近邻法主要包含有 $k$ 值选择，距离度量以及分类决策规则三部分。

1. $k$ 近邻模型

距离度量

特征空间中两个样本的距离是两个样本的相似程度的反映。在 $k$ 近邻法中常用的距离度量包括：
（1）Minkowski Distacne(闵可夫斯基距离)
定义两个变量 $x_i,x_j\in \chi,x_i=(x_i^1,x_i^2,\ldots,x_i^n)$ , $x_j=(x_j^1,x_j^2,\ldots,x_j^n)$ ,则他们之间的闵可夫斯基距离为：

L p (x i, x j) = (\sum l = 1 n (x l i - x l j)) 1 p

$L_p(x_i,x_j)=(\sum_{l=1}^n(x_i^l-x_j^l))^{\frac{1}{p}}$
当

p $p$ =1时，称为曼哈顿距离（Manhattan distance）

L 1 (x i, x j) = \sum l = 1 n | x l i - x l j |

$L_1(x_i,x_j)=\sum_{l=1}^n|x_i^l-x_j^l|$
当

p $p$ =2时，是常用的欧式距离（Euclidean distance）

L 2 (x i, x j) = \sum l = 1 n | x l i - x l j | 2 - - - - - - - - - - - \sqrt

$L_2(x_i,x_j)=\sqrt{\sum_{l=1}^n|x_i^l-x_j^l|^2}$
当

p=∞ $p=\infty$ 时，是常用的切比雪夫距离（chebyshev distance）

L \infty (x i, x j) = max l | x n i - x n j |

$L_{\infty}(x_i,x_j)=\max_{l}|x_i^n-x_j^n|$
上述距离在不同特征中存在一定的缺点，比如特征维度中不同的单位，如果用绝对值会导致比重不一，因此不同的特征都需要归一化，即统一为相对值。
（2）马氏距离（Mahalanobis distance）
定义两个变量

xi,xj∈χ,xi=(x1i,x2i,…,xni) $x_i,x_j\in \chi,x_i=(x_i^1,x_i^2,\ldots,x_i^n)$ ,

xj=(x1j,x2j,…,xnj) $x_j=(x_j^1,x_j^2,\ldots,x_j^n)$ ,则他们之间的马氏距离为：

D (x i, x j) = (x i - y j) T S - 1 (x i, x j) - - - - - - - - - - - - - - - - - \sqrt

$D(x_i,x_j)=\sqrt{(x_i-y_j)^TS^{-1}(x_i,x_j)}$
其中

S $S$ 是协方差矩阵。马氏距离与量纲无关，排除了变量之间相关性的干扰。在图像处理领域中常用作特征测量的标尺。
（3）夹角余弦（Cosine）
夹角余弦可以用来衡量两个特征向量方向的差异，机器学习中常用这一概念来衡量样本的差异，对于给定变量，其定义为：

cos (θ) = \sum n l = 1 x l i x l j \sum n l = 1 x n i 2 - - - - - - - \sqrt \sum n l = 1 x n j 2 - - - - - - - \sqrt

$\cos(\theta)=\frac{\sum_{l=1}^nx_i^lx_j^l}{\sqrt{\sum_{l=1}^n{x_i^n}^2}\sqrt{\sum_{l=1}^n{x_j^n}^2}}$
夹角余弦越大表示两个向量夹角越小，向量相似度越高。夹角余弦度量的特征距离常用在自然语言处理中，是很常用的机器学习特征向量度量手段。
其余衡量样本相似度的手段还有汉明距离，杰卡德相似系数，相关系数和信息熵等。不同距离标准的选择对于KNN最终的分类结果是可能不同的。

$k$ 值选择

$k$ 值选择会对KNN的结果产生重大影响。
如果选择较小的 $k$ 值，相当于在较小的邻域中进行预测，使“学习”的近似误差减小，估计误差增大，预测结果会对近邻的样本点非常敏感。这意味着， $k$ 值越小整体模型会变得越复杂，模型容易过拟合。如果 $k$ 值较大，相当于在较大的邻域中进行预测，可以减少“学习”的估计误差，但是近似误差增大。这意味着 $k$ 值越大，模型越简单，适应性越强。
通常选取交叉验证法来选取 $k$ 值。

分类决策规则

在KNN中常用的分类决策规则往往是多数表决，即由距离测试样本最近的 $k$ 个训练样本的类别决定分类结果。
分类函数：

f : R n \leftarrow {c 1, c 2, \dots, c k}

$f:{\bf R^n}\gets \{c_1,c_2,\ldots,c_k\}$
那么误分类的概率：

P (Y \neq f (X)) = 1 - P (Y = f (x))

$P(Y\ne f(X))=1-P(Y=f(x))$
给定样本

x∈χ $x\in \chi$ ，其最近邻的

k $k$ 个训练样本构成的集合

Nk(x) $N_k(x)$ . 如果最终的决策类别是

cj $c_j$ ，那么误分类率为：

1 k \sum x i \in N k (x) I (y i \neq c j) = 1 - 1 k \sum x i \in N k (x) I (y i = c j)

$\frac{1}{k}\sum_{x_i\in N_k(x)}I(y_i\ne c_j)=1-\frac{1}{k}\sum_{x_i\in N_k(x)}I(y_i=c_j)$
要使误分类率最小，即经验风险最小，就要使

∑xi∈Nk(x)I(yi=cj) $\sum_{x_i\in N_k(x)}I(y_i=c_j)$ 最大，所以多数表决规则等效于经验风险最小化。

2. $k$ 近邻算法

$kNN$ 算法简单、直观：给定一个训练样本集，对新的输入样本，在训练样本中找 $k$ 个与该测试样本最近邻的 $k$ 个样本，这 $k$ 个样本多数属于哪一类，则该测试样本就属于哪一类：

Algorithm 3.1

Input: traning_data

T={(x1,y1),(x2,y2),…,(xN,yN)} $T=\{(x_1,y_1),(x_2,y_2),\ldots,(x_N,y_N)\}$ , testing_data

(xi,yi) $(x_i,y_i)$

Output: the label of $y_i$
calculate all distances between testing_data and training_data
select the nearest $k$ sample $N_k(x)$
voting rule: $y_i= \arg \max\sum_{x_i\in N_k(x)}I(y_i=c_j)$

KNN算法的简单实现

# Project: Machine Learning-KNN
# Author:Lyndon
# Date: 2015/10/18

from numpy import *
import operator

# Creating training data
def createdata():
    group = array([[1,1],[1,1.1],[0.9,1],[0,0.1],[0.1,0],[0.1,0.1],[0,1],[0.1,0.9],[0,0.8]])
    labels = ['A','A','A','B','B','B','C','C','C']
    return group,labels

# testing process
def knnclassify(testing_data,group,labels,k):
    datasize = group.shape[0]           #the rows of array
    # calculate the distance 
    diffMat = tile (testing_data,(datasize,1))-group
    sqdiffMat = diffMat**2
    sqdiffMatsum=sqdiffMat.sum(axis=1)
    distances = sqdiffMatsum**2
    # majority voting rule
    classcount={}
    sortdistances = distances.argsort()
    for i in range(k):
        votelabel = labels[sortdistances[i]]
        classcount[votelabel] = classcount.get(votelabel,0)+1
    sortclass=sorted(classcount.iteritems(),key=operator.itemgetter(1),reverse=True)
    return sortclass[0][0]

# main
if __name__ == "__main__":
    string=raw_input("please enter two numbers, split by comma:")
    input_data= string.split(",")
    testing_data= []
    for i in range(len(input_data)):
        testing_data.append(float(input_data[i]))
    string1=raw_input("please enter the k:")
    k=int(string1)
    group,labels = createdata()
    label=knnclassify(testing_data,group, labels, k)
    print "the label of input data is:" + str(label)

$kNN$ 没有显式的学习过程，直接通过给定的训练来预测未知样本的结果，测试结果：
这里写图片描述

$kNN$ 是经典的数据分类算法，在邮件分类，文字识别，推荐系统等领域都有相应的应用，但其整体计算量大，特别对于高维数据会消耗很多资源，虽然KD树能够优化搜索的计算量，但计算大部分的数据还是消耗很大资源。
PS：本文为机器学习（3）总结笔记，通过python实现了简单分类，原理主要参考李航《统计学习理论》第三章。