目的是找到最近的k个邻居(样本),并在前k个样本中选择频率最高的类别作为预测类别。
其计算步骤为:
(1)算距离:给定测试对象,计算它与训练集中的每个对象的距离。
(2)找邻居:找距离最近的k个训练对象,作为测试对象的近邻。
(3)分类:根据这k个近邻的主要类别,来测试对象的类别。
Python实现:
主要步骤:
(1)计算测试点与已知类别点的距离。
(2)按距离递增排序
(3)选取前k个点
(4)统计前k个点中类别的频率
(5)返回前k个点出现频率最高的类别作为该点的类别。
目的是找到最近的k个邻居(样本),并在前k个样本中选择频率最高的类别作为预测类别。
其计算步骤为:
(1)算距离:给定测试对象,计算它与训练集中的每个对象的距离。
(2)找邻居:找距离最近的k个训练对象,作为测试对象的近邻。
(3)分类:根据这k个近邻的主要类别,来测试对象的类别。
Python实现:
主要步骤:
(1)计算测试点与已知类别点的距离。
(2)按距离递增排序
(3)选取前k个点
(4)统计前k个点中类别的频率
(5)返回前k个点出现频率最高的类别作为该点的类别。