最邻近规则分类KNN算法

晨晨晨呀

于 2019-07-09 17:21:51 发布

阅读量167

点赞数

综述
1.1 Cover和Hart在1968年提出了最初的邻近算法
1.2 分类(classification)算法
1.3 输入基于实例的学习(instance-based learning), 懒惰学习(lazy learning)
实例

在上面这个例子中，接吻次数和打斗次数都是属于特征量，电影名称和电影类型属于label。

下面这个简易的模型预测未知电影属于什么类型？
在这里插入图片描述

3. 算法详述
3.1 步骤：
为了判断未知实例的类别，在所有已知类别的实例中选择距离最近的k个实例作为参照
选择参数K（需要进行尝试选取）k一般取1 3 5等奇数，要进行少数服从多数
计算未知实例与所有已知实例的距离
选择最近K个已知实例
根据少数服从多数的投票法则(majority-voting)，让未知实例归类为K个最邻近样本中最多数的类别
3.2 细节:
关于距离的衡量方法:
3.2.1 Euclidean Distance 定义
在这里插入图片描述
假设结算点g到各点的euclidean 距离，math.pow((x2-x1),n)表示(x2-x1)的n次方!

假设k取3，则选择三个距离最近的实例作为参考，这里是abc三个实例，都为romance类型，所以g也是romance。如果abc中有一个是动作片，则少数服从多数，取多数的值。
推广到n维数剧：
在这里插入图片描述
其他距离衡量：余弦值（cos）, 相关度（correlation）, 曼哈顿距离（Manhattan distance）｛曼哈顿距离是指通过求两点之间的两个垂直方向的距离，参考街区的形状｝
3.3 举例

在这个例子里，如果k取1，则绿点的预测则为蓝色点，如果k取4，则绿点的预测为红色，通过这个例子可以看出，KNN算法对于k的取值十分敏感。

算法优缺点：
4.1 算法优点
简单
易于理解
容易实现
通过对K的选择可具备丢噪音数据的健壮性

4.2 算法缺点
需要大量空间储存所有已知实例
算法复杂度高（需要比较所有已知实例与要分类的实例）
当其样本分布不平衡时，比如其中一类样本过大（实例数量过多）占主导的时候，新的未知实例容易被归类为这个主导样本，因为这类样本实例的数量过大，但这个新的未知实例实际并木接近目标样本
改进版本
考虑距离，根据距离加上权重
比如: 1/d (d: 距离）

python实现KNN算法
实例：花的分类问题，根据花的特征值进行分类，150个实例，特征值有萼片长度，萼片宽度，花瓣长度，花瓣宽度。类别有Iris setosa Irls versicolor Irls virginica .所以CSV数据有150行，4列，运用sklearn学习库
在这里插入图片描述

这是通过sklearn库来实现KNN，结果是：

KNN 的源代码实现：
在这里插入图片描述

晨晨晨呀

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
最邻近规则分类KNN算法

综述1.1 Cover和Hart在1968年提出了最初的邻近算法1.2 分类(classification)算法1.3 输入基于实例的学习(instance-based learning), 懒惰学习(lazy learning)实例在上面这个例子中，接吻次数和打斗次数都是属于特征量，电影名称和电影类型属于label。下面这个简易的模型预测未知电影属于什么类型？3. 算法详...
复制链接

扫一扫