机器学习实战笔记——kNN算法

最新推荐文章于 2022-10-14 17:01:57 发布

笑逐燕开

最新推荐文章于 2022-10-14 17:01:57 发布

阅读量238

点赞数

分类专栏：机器学习文章标签： KNN算法人工智能

本文链接：https://blog.csdn.net/vivizhangyan/article/details/80876044

版权

kNN算法的基本思想
（1）测量不同特征值之间的距离进行分类，具体表述为对于一个训练样本集中每一个数据对应一个标签，输入一个没有标签的新数据后，将新数据的每个特征与样本集中对应的特征进行比较，利用算法提取样本集中最相似数据的分类标签，通常选择样本数据集中前k个最相似的数据。
（2）优点：精度高，对异常值不敏感，无数据输入假定
（2）缺点：计算复杂度高、空间复杂度高
kNN 算法的实现过程
（1）收集数据：数据类型为数值型和标称型（一般使用公开的数据源）
（2）准备数据：距离计算所需要的数值，最好是结构化的数据形式（确保数据格式符合要求）
（3）分析数据：人工分析以前的数据，查看数据是否存在空值，或者异常值等（确保数据集中没有垃圾数据）
（4）测试算法：计算错误率
（5）使用算法：首先需要输入样本数据和结构化的输出结果，然后运行kNN算法判定输入数据属于那个分类，最后应用对计算出的分类执行后续处理
编写程序：
（1）Python导入程序：工具包导入NumPy科学计算包，运算符模块operator,创建数据集
（2）KNN分类算法实现：
a.计算已知类别的点与当前点的距离，一般采用欧式距离公式，计算两个向量点之间的距离
b.按照距离递增次序排序
c.选取距离最小的前k个点
d.确定前k个点所在类别出现的频率
e.返回前看个点出现频率最高的类别作为当前点的预测分类

from numpy import *
import operator
from os import listdir  #给定目录的文件名

def classify0(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]
    diffMat = tile(inX, (dataSetSize,1)) - dataSet
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis=1)
    distances = sqDistances**0.5
    sortedDistIndicies = distances.argsort()     
    classCount={}          
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel,0) +

最低0.47元/天解锁文章

笑逐燕开

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习实战笔记——kNN算法

kNN算法的基本思想（1）测量不同特征值之间的距离进行分类，具体表述为对于一个训练样本集中每一个数据对应一个标签，输入一个没有标签的新数据后，将新数据的每个特征与样本集中对应的特征进行比较，利用算法提取样本集中最相似数据的分类标签，通常选择样本数据集中前k个最相似的数据。（2）优点：精度高，对异常值不敏感，无数据输入假定（2）缺点：计算复杂度高、空间复杂度高 kNN 算法的实现过...
复制链接

扫一扫

专栏目录