摘要
本文主要介绍k近邻,以及k近邻在数据集上的应用。
目录
一、k-近邻算法原理
1.1 k-近邻算法介绍
K近邻分类算法(k-Nearest Neighbor,KNN),是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。
K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(也就是上面所说的K个邻居), 这K个实例的多数属于某个类,就把该输入实例分类到这个类中。
1.2 计算步骤
(1)计算测试对象与训练集中所有对象的距离,可以是欧式距离、余弦距离等,比较常用的是较为简单的欧式距离;
(2)找出上步计算的距离中最近的K个对象,作为测试对象的邻居;
(3)找出K个对象中出现频率最高的对象,其所属的类别就是该测试对象所属的类别。
1.3 数学表达:
输入:输入训练集 T={ (x1,y1),(x2,y2),...,(xn