1、原理
工 作 原 理 是 : 存 在 一 个 样 本 数据 集 合 , 也 称 作训练 样 本 集 , 并 且 样 本 集 中 每 个 数 据 都 存 在 标 签 , 即 我 们 知 道 样 本 集 中 每 一 数 据与 所 属 分 类 的 对 应关系 。输 人 没 有 标 签 的 新 数 据 后 , 将 新 数 据 的 每 个 特 征 与 样 本 集 中 数 据 对 应的特 征 进 行 比较 , 然 后 算 法 提 取 样 本 集 中 特 征 最 相 似 数 据 ( 最 近 邻 ) 的 分 类 标 签 。一 般 来 说 , 我 们只 选 择 样 本 数 据 集 中 前 & 个 最 相 似 的 数 据 ,这 就 是 &- 近 邻 算 法 中 & 的 出 处 , 通 常 * 是 不 大 于 20 的 整 数 。
最 后 , 选 择 & 个 最 相 似 数 据 中 出 现 次 数 最 多 的 分 类 , 作 为 新 数 据 的 分 类 。
2、优缺点和适用范围
优 点 : 精 度 高 、 对 异 常 值 不 敏 感 、 无 数 据 输 入 假 定 。
缺 点 : 计 算 复 杂 度 高 、 空 间 复 杂 度 高 。
适 用 数 据 范 围 : 数 值 型 和 标 称 型 。
3、例子
判断未知的?电影属于什么类型