k近邻法

最新推荐文章于 2020-10-24 16:25:05 发布

liushui94

最新推荐文章于 2020-10-24 16:25:05 发布

阅读量295

点赞数 1

分类专栏：机器学习文章标签： k近邻法

本文链接：https://blog.csdn.net/liushui94/article/details/78630954

版权

机器学习专栏收录该内容

6 篇文章 1 订阅

订阅专栏

1.综述

k近邻法（k-nearest neighbor,kNN）是一种基本的分类与回归方法。接下来只叙述分类方法。kNN是一种多分类的方法，没有显示的学习过程，它是利用训练数据集对特征向量空间进行划分，作为分类的模型。
kNN描述：给定训练数据集，对于新输入的实例，在训练数据集中找到与该实例最近的 $k$ 个实例，这 $k$ 个实例的多数属于某类，就认为这个是实例是这个类的。
kNN的三个基本要素是：k值的选择、距离的度量、分类决策规则。

2.算法

输入：训练数据集 $T=\{(x_1,y_1),(x_2,y_2)...(x_N,y_N)\}$
其中， $x\in\mathcal X\subseteq R^n$ 为实例的特征向量， $y_i\in\mathcal Y=\{c_1,c_2,c_3,..,c_k\}$ 为实例的类别， $i=1,2,3...,N$ ，实例的特征向量为 $x$

输出：实例 $x$ 所属的类别
（1）根据给定的距离度量方法，在训练集 $T$ 中找出与 $x$ 最近的k个点，涵盖这 $k$ 个点的 $x$ 的邻域记作 $N_k(x)$
（2）在 $N_k(x)$ 中根据分类决策规则（一般是多数表决）决定 $x$ 的类别 $y$

y = arg max c j \sum x i \in N k (x) I (y i = c j), i = 1, 2, . . ., N; j = 1, 2..., K

$y=\mathop{\arg\max}_{c_j} \sum_{x_i \in N_k(x)}I(y_i=c_j) , i=1,2,...,N;j=1,2...,K$
其中，

I $I$ 为指示函数，满足条件为1，不满足为0.
当

k=1 $k=1$ 时为最近邻算法。

3.三要素

(1)距离度量

距离是指两个实例点之间相似成度的反映。kNN模型的特征空间一般是 $n$ 维实数的向量空间 $R^n$ .使用距离一般是欧式距离，或更一般的 $L_p$ 距离（Minkowski距离，闵氏距离）。这里顺便提一下， $L_p$ 距离与向量的 $L_p$ 范数是对应的， $p$ 表示参数，如 $1,2，\infty$
当 $p=1$ 时，称为曼哈顿距离
当 $p=2$ 时称为欧氏距离
当 $p=\infty$ 时，称为切比雪夫距离
使用不同的距离度量所确定的最近邻是不同的

(2) $k$ 的选择

$k$ 过小就会使得泛化效果很差，偏差小，方差大
$k$ 过大尽管能减小方差，但是使得偏差大
一般 $k$ 取值比较小，采用交叉验证的方法确定最优的 $k$ 值

(3)分类决策规则

一般采用多数表决规则，其等价于经验风险最小化

4.kd树

$kd$ 树是一种存储训练数据的结构，使用这种结构可以减少计算距离的次数。注意，这里的 $k$ 表示的是实例是 $k$ 维的，与 $kNN$ 的 $k$ 没有关系
$kd$ 树的构造以及利用 $kd$ 树的最近邻搜索算法.

5.程序实现

利用sklearn工具包可以快速实现

# coding:utf-8

from sklearn.neighbors import KNeighborsClassifier # 导入knn分类器 
X = [[0], [1], [2], [3]]   #输入数据
y = [0, 0, 1, 1]           #输入每个数据对应的类别
neigh = KNeighborsClassifier(n_neighbors=3)   #生成对象
neigh.fit(X, y)                               #模型训练
print(neigh.predict([[1.1]]))                 #对于新数据的预测
>>>[0]