K-近邻算法测量样本不同特征之间的距离进行分类
原理:
存在一个训练数据集,每个样本都有相对应的标签,输入没有标签的新数据,将新数据每个特征与训练集数据对应的特征进行比较,提取训练集中特征最相似数据(前K个)的分类标签,选择K个最相似数据中出现次数最多的类别,最为该新数据的类别。
优点:精度高,对异常值不敏感,无数据输入假定
缺点:计算复杂度高,空间复杂度高
对未知类别属性的数据集中的每个样本执行以下操作:
1)计算已知类别数据集中的每个样本与当前样本的距离
2)按距离递增排序
K-近邻算法测量样本不同特征之间的距离进行分类
原理:
存在一个训练数据集,每个样本都有相对应的标签,输入没有标签的新数据,将新数据每个特征与训练集数据对应的特征进行比较,提取训练集中特征最相似数据(前K个)的分类标签,选择K个最相似数据中出现次数最多的类别,最为该新数据的类别。
优点:精度高,对异常值不敏感,无数据输入假定
缺点:计算复杂度高,空间复杂度高
对未知类别属性的数据集中的每个样本执行以下操作:
1)计算已知类别数据集中的每个样本与当前样本的距离
2)按距离递增排序