机器学习----K-近邻算法（Python代码详解）

最新推荐文章于 2023-05-11 04:12:54 发布

Ichimaru_Gin_

最新推荐文章于 2023-05-11 04:12:54 发布

阅读量931

点赞数 1

分类专栏：机器学习文章标签：机器学习----K 机器学习算法 Python代码详解

本文链接：https://blog.csdn.net/ichimaru_gin_/article/details/52781145

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

本博文的内容主要是在自学《Machine Learning in Action》的中文版《机器学习实战》的小结，原书中对调用的一些模块的函数并没有做出过多的解释，本文进行了总结和补充。

K-近邻算法

一、算法概述

K-近邻算法就是采用测量不同特征值之间的距离进行分类。
距离采用欧式距离计算公式，计算两个向量点xA和xB之间的距离：

d = (x A 0 - x B 0) 2 + (x A 1 - x B 1) 2 - - - - - - - - - - - - - - - - - - - - - - - \sqrt

$d = \sqrt{(xA_0-xB_0)^2 + (xA_1-xB_1)^2}$
例如，点（0,0）与点（1,2）之间的距离计算为：

(1 - 0) 2 + (2 - 0) 2 - - - - - - - - - - - - - - - \sqrt

$\sqrt{(1-0)^2+(2-0)^2}$
如果数据集存在4个特征值，则点（1,0,0,1）与（7,6,9,4）之间的距离计算为：

(7 - 1) 2 + (6 - 0) 2 + (9 - 0) 2 + (4 - 1) 2 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - \sqrt

$\sqrt{(7-1)^2+(6-0)^2+(9-0)^2+(4-1)^2}$

优点：精度高，对异常值不敏感，无数据输入假定。
缺点 : 计算复杂度高，空间复杂度高。

Python代码实现

基本算法实现

使用Python准备数据

from numpy import *
import  operator

def creatDataset():
    group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) #数据集
    labels=['A','A','B','B'] #标签
    return group,labels

K-近邻算法
根据K-近邻算法的原理，其代码逻辑如下：
1. 计算已知类别属性的数据集中的每个点与当前点之间的距离；
2. 按照距离从小到大是次序进行排序；
3. 选取与当前距离最小的K个点；
4. 确定K个点所在类别的出现频率；
5. 返回前K个点出现频率最高的类别作为当前点的预测类别；

def classify0(intX,dataSet,labels,k):
    #1.1获得dataSet矩阵行数
    dataSetSize=dataSet.shape[0] 
    #1.1tile函数通过给定参数构建数组
    diffMat=tile(intX,(dataSetSize,1))-dataSet 
    #1.1数组中每个元素进行平方
    sqDiffMat=diffMat ** 2 
    #1.1对多维数组第一轴进行相加求和
    sqDistances=sqDiffMat.sum(axis=1) 
    distances=sqDistances ** 0.5 #1.1开平方
    #2.1返回排序数组的索引
    sortedDistIndicies=distances.argsort() 
    classCount={}
    #3.1
    for i in range(k):
        #4.1获得从小到大排序后依次的标签
        voteIlabel = labels[sortedDistIndicies[i]]
        #4.2记录前K个元素中不同标签出现的次数，classCount应为       字典类型
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1 
    #4.3按标签出现次数从多到少进行排序
    sortedClassCount = sorted(classCount.iteritems(),key=operator.itemgetter(1),reverse = True)
    #5 
    return sortedClassCount[0][0]

如果输入参数intX=[0,0],则该程序给出的分类结果因该为B

Ichimaru_Gin_

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
机器学习----K-近邻算法（Python代码详解）

本博文的内容主要是我在自学《Machine Learning in Action》的中文版《机器学习实战》的总结。K-近邻算法一、算法概述K-近邻算法就是采用测量不同特征值之间的距离进行分类。距离采用欧式距离计算公式，计算两个向量点xA和xB之间的距离： d=(xA0−xB0)2+(xA1−xB1)2−−−−−−−−−−−−−−−−−−−−−−−√ d = \sqrt{(xA_0-
复制链接

扫一扫