k近邻学习
k近邻(k-Nearest Neighbour,简称kNN)学习是一种常用的监督学习方法,其工作机制非常简单:给定测试样本,基于某种距离度量找出训练集与其最近的k个训练样本,然后基于这k个“邻居”的信息来进行预测。通常,在分类任务中可使用“投票法”,即选择这k个样本中出现最多的类别标记作为预测结果;在回归任务中可使用"平均法",即将这k个样本的实值输出标记的平均值作为预测结果;还可以基于距离远近进行加权平均或加权投票,距离越近的样本权重越大。下图为kNN分类示意图:
k近邻是一个“懒惰学习”的代表,即该类学习技术在训练样本阶段仅仅是把样本保存起来,训练时间开销为零,待收到测试样本后再进行处理;与之相对的,线性回归、逻辑回归、神经网络等都属于“急切学习”。
通过数学推导可知:k近邻分分类器虽简单,但它的泛化误差率不超过贝叶