机器学习实战 KNN算法

最新推荐文章于 2024-04-01 13:43:03 发布

子衿_青青

最新推荐文章于 2024-04-01 13:43:03 发布

阅读量413

点赞数

分类专栏：数据分析文章标签：机器学习实战 KNN算法

本文链接：https://blog.csdn.net/qq_18433441/article/details/54730591

版权

数据分析专栏收录该内容

38 篇文章 3 订阅

订阅专栏

# -*- coding: utf-8 -*-
"""
Created on Wed Jan 25 13:45:32 2017

@author: Administrator
"""

#KNN，K-近邻算法
from numpy import *
import operator #运算符模块

#建样本集
def createDataSet():
    group = array([[1.0,1.1], [1.0,1.0], [0,0], [0,0.1]])
    labels = ['A', 'A', 'B', 'B']
    return group, labels
    
# k-近邻算法
def classify0(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0] #获取样本集行数
    #算待分类数据(如[1.2,0.8])与样本集每行的欧拉距离    
    diffMat = tile(inX, (dataSetSize, 1)) - dataSet
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis=1) #按行相加，每一行都是dx^2 + dy^2
    distances = sqDistances**0.5
    #返回距离从小到大排序的索引，如[1.5, 1.4, 0, 0.1]，返回的是[2, 3, 1, 0],即最小的数原来的索引为2，最大的数原来的索引为0 
    sortedDistIndicies = distances.argsort() 
    #返回前K个里面出现频率最高的，作为当前的预测分类    
    classCount={}
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1 
        '''
         #get是取字典里的元素，如果之前这个voteIlabel是有的，那么就返回字典里这个voteIlabel里的值，
          如果没有就返回0（后面写的），这行代码的意思就是算离目标点距离最近的k个点的类别，这个点是哪个类别哪个类别就加1          
        '''
    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1),reverse=True)
    '''
     #key=operator.itemgetter(1)的意思是
    按照字典里的值排序，{A:1,B:2},要按照值（A，B是键），即‘1’‘2’排序。reverse=True是降序排序
    '''
    return sortedClassCount[0][0]

测试如下：