1.K-近邻算法简介
K-近邻算法又称:最近邻规则分类 KNN (K-Nearest Neighbor),是是1967年由Cover T和Hart P提出的一种基本分类与回归方法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。
该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。
工作原理和步骤:
- 训练数据样本集,样本集中每个数据都有标签,已经分好类。为判断未知输入实例的类别,以所有已知类别的实例作为参照选择参数K(常K是不大于20的整数)
- 计算未知实例与所有已知实例的距离(如欧式距离)
- 选择与未知实例距离最近的K个已知实例
- 根据少数服从多数的投票法则(majority-voting),将未知实例归类为K个最邻近实例中所属最多数的类别
2.实例说明
电影名称 | 打斗次数 | 接吻次数 | 电影类型 |
---|---|---|---|
电影1 | 3 | 104 | Romance |
电影2 | 2 | 100 | Romance |
电影3 | 1 | 81 | Romance |
电影4 | 101 | 10 | Action |
电影5 | 99 | 5 | Action |