KNN算法是解决分类问题的。
1.基本假设
越相近越相似
原则:少数服从多数,一点一票
2.算法原理
①算距离
给定测试对象 Item,计算它与训练集中每个对象的距离。
②找邻居
圈定距离最近的k个训练对象,作为测试对象的近邻。
③做分类
根据这k个近邻归属的主要类别,来对测试对象进行分类。
自邻居集合NN中取出前k名,查看它们的标签,对这k个点的标签求和,以多数决,得到可能类别。
3.距离类模型中距离的确认
k-NN算法基本思想我们已经知道了,其模型的表示形式是整个数据集。除了对整个数据集进行存储之外,k-NN没有其他模型。因此,k-NN不具有显式的学习过程,在做「分类」时,对新的实例,根据其 k 个最近邻的训练实例的类别,通过多数表决等方式进行预测。k-近邻法实际上利用了训练数据集对特征向量空间进行划分,并作为其分类的 “模型” 。
当特征数量有很多个形成多维空间时,再用上述的写法就不方便了,我们换一个写法,用 X 加下角标的方式表示
特征维度。则在n维空间中,有两个点 A 和 B,它们的坐标分别为:
则A和B两点之间的欧氏距离的基本计算公式如下:
机器学习之K近邻算法--KNN
最新推荐文章于 2023-09-27 20:44:52 发布