机器学习(二)KNN(K-近邻)算法

KNN(K-近邻)算法是一种基于监督学习的聚类方法,通过测量特征空间中样本间的距离进行分类。算法效果受k值影响,选择最近的k个邻居,多数类别决定样本归属。在KNN中常用欧式距离或曼哈顿距离作为相似性指标。算法步骤包括计算距离、排序、选取k个最近点、确定类别频率和预测类别。Python实现中,sklearn库可用于手写数字识别系统的KNN算法。
摘要由CSDN通过智能技术生成

所属类别:
监督学习之聚类算法
原理:
KNN是通过测量不同特征值之间的距离进行分类。即,如果一个样本在特征空间中的k个最相似(最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。其中 k k k 通常是不大于20的整数。
例子:
在这里插入图片描述
在如上图形中,要求判断绿色的园应当被划分到哪个类别。
如果k=3,即根据与绿色园最近邻的三个形状来划分它的所属类别。由于与其最近邻的三个图形中红色三角形所占比例为2/3,蓝色正方形所占比例为1/3,故绿色园应当被划分到红色三角形的那一类中去。
如果k=5,即根据与绿色园最近邻的五个形状来划分它的所属类别。由于与其最近邻的五个图形中红色三角形所占比例为2/5,蓝色正方形所占比例为3/5,故绿色园应当被划分到蓝色正方形的那一类中去。
由此可见,KNN算法的结果很大成都取决于k的取值。
在KNN中,常用对象之间的距离作为各个对象之间的非相似性指标。其中的距离一般使用欧式距离或者曼哈顿距离:
在这里插入图片描述
算法步骤:
1.计算测试数据与其它各个训练数据之间的距离。
2.按照距离递增关系进行排序。
3.选取距离最小的k个点。
4.确定前k个点所在类别的出现频率。
5.返回前k个点中出现频率最高的类别作为测试数据的预测类别。
python实现:

import numpy as np
import operator

#创建数据集
def createDataSet():
    # 四组二维特征
    group=np.array([[1.0,2.0],[1.3,0.2],[0.2,1.3],[0.3,3.4]])
    # 四组特征的标签
    labels=['a','a','b','b']
    return group,labels

# kNN算法,分类器
def classify(inX,dataSet,labels,k):
    # numpy函数shape[0]返回dataSet的行数
    dataSetSize = dataSet.shape
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值