k近邻算法
一。k近邻算法是什么
k-Nearest Neighbor,KNN分类算法,是机器学习最简单的算法之一。
二,原理
在特征空间中,如果一个样本附近的k个最近样本的大多数属于一个类别,则该样本也属于这个类别。
官方概念:给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(也就是上面所说的K个邻居), 这K个实例的多数属于某个类,就把该输入实例分类到这个类中。
三。k值怎么选?
根据最下面的例子我们可以知道,求这个样本与那些测试集数据的属性的d(距离),从小到大排序,选取前k个数据,k个里面哪个所属标签多,这个样本就属于哪个标签。
k一般不超过根号训练集,取奇数