K近邻算法简介
K近邻(K-Nearest Neighbor,KNN) 算法是一个典型的监督学习算法核心思想是:未标记样本的类别由距离其最近的K个邻居通过投票来决定。具体而言,假设存在一个已经标记好的数据集。给定一个未标记的数据样本,我们的任务是:预测出该数据样本所属的类别。KNN的原理是: 计算待标记样本和数据集中每个样本的距离取距离最近的K个样本待标记的样本所属类别由这K个距离最近的样本投票产生。
K近邻算法
k-近邻算法,其工作机制就是给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k个“邻居”的信息来进行预测。
k近邻法会涉及到三个问题(三要素):距离度量、k 值的选择、分类决策规则
距离度量
特征空间的两个实例点的距离度量是两个实例点相似程度的反映。距离小,那么相似度大;距离大,那么相似度小。k-近邻模型的特征空间一般是n维实数向量空间R^n 。使用的距离是欧式距离,但也可以是其他距离,如更一般的L_p距离(L_p distance)或Minkowski距离。
欧氏距离(Euclidean distance) 是最常用的距离计算公式,衡量的是多维空间中各个点之间的绝对距离。欧在二维和三维空间中的欧氏距离就是两点之间的实际距离。
曼哈顿距离(Manhattan distance)从一个十字路口开车到另外一个十字路口实际驾驶距离就是这个“曼哈顿距离”。无论哪条路线,距离一样。
k值的选择
一般是靠经验,默认为5个
k值较大,会使模型变得简单,容易欠拟合
k值较小,会使模型变得复杂,容易过拟合
分类决策
未知实例的k个近邻的多数实例类决定未知实例类,经验风险最小化
算法流程如下:
1.计算测试对象到训练集中每个对象的距离
2.按照距离的远近排序
3.选取与当前测试对象最近的k的训练对象,作为该测试对象的邻居
4.统计这k个邻居的类别频次
5.k个邻居里频次最高的类别,即为测试对象的类别
KNN算法的优点
1.即可用于回归也可用于分类
2.理论成熟,思想简单
3.重新训练代价低
4.对异常值不敏感
缺点
大训练集内寻找最近邻花费的时间大。
对内存要求较高,该算法存储了所有的训练数据