一、定义
1、K-NN分类全称为K近邻法(k-nearest neighbor),是一种基本回归与分类方法:给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最近的k个实例,这k个实例中多数实例属于某一类,就把该输入实例分为这一类。
2、好比说,你周围的同学大都是些好学生,你也会被认为是好学生;你周围大都是些混混,那你也会被认为是混混。(其实这只是一种误解哈哈哈)
二、解决什么问题?
1、根据已有的分类情况,对未知类型的数据进行分类。
2、举个例子
这是一些球员的职业生涯数据,其中包括场均得分和场均助攻,大家知道现在的控卫和传统控卫有很多不同,现在的控卫进攻能力更强,而传统控卫更偏向于组织串联球队。两种风格的控卫在数据上有很明显的区别,得分型控卫得分更高,传统控卫助攻更多,而一些身材高大的控卫比如西蒙斯、鲍尔则更加全面,此处就不涉及讨论。那么对于林书豪来说,针对他的数据就不好一眼看出他是哪种类型的控卫,这里我们就可以用k-近邻算法进行分类。
三、具体步骤
度量球员与球员之间的距离最明显的就是直接对比球员之间各个数据的差值,比如球员A场均20+10,球员B场均19+9,那么就认为这两个球员及其相似了。而我们所要计算的就是球员之间