k-近邻算法(KNN)--1简单原理介绍与实践---by香蕉麦乐迪

k近邻的原理:

1、计算没有标签的新数据与样本集中每一个样本的相似度

2、对相似度进行排序,取前面k个最相似的样本

3、前k个样本中,样本个数最多的类别,就是预测类别


简单实验:

样本集:4个样本,每个样本是一个点,有x y坐标

类别标签:样本集中的样本有两个类别,分别是a 和 b

k:我们取3

样本集如下:

样本数据:[1.0,1.1],   [1.0,1.0],   [0,0],   [0,0.1]

对应标签:    'a',           'a',             'b',         'b'


代码说明:

createDataSet.py:创建上面所述的样本集

classify.py:根据样本集和k值,对新数据预测类别

knn.py:主函数


代码分别如下:

createDataSet.py

import numpy as np

def createDataSet():
    group = np.array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
    labels = ['a','a','b','b']
    return group, labels

classify.py

import numpy as np
import operator

def classify(inX,dataSet,labels,k):

    #calculate euclidean distance between k and dataSet
    dataSetSize=dataSet.shape[0]
    diffMat=np.tile(inX,(dataSetSize,1))-dataSet
    sqDiffMat=diffMat**2
    sqDistances=sqDiffMat.sum(axis=1)
    distance=sqDistances**0.5

    #sort distance, min to max, return index list
    sortedDistIndicies=distance.argsort()

    # from 0 to k-1, count times of every class
    classCount={}
    for i in range(k):
        className=labels[sortedDistIndicies[i]]
        #print classCount.get(className,0)
        #here parameter 0 means:if className doesn't exist, return
        classCount[className]=classCount.get(className,0)+1

    #sort class count result, i don't understand this method now
    #parameter reverse=true:from big to small,reverse=flase:from small to big
    sortedClassCount=sorted(classCount.iteritems(),key=operator.itemgetter(1),reverse=True)

    #print sortedClassCount
    #print sortedClassCount[0][0]

    # return result
    return sortedClassCount[0][0]

knn.py

import createDataSet
import classify
import numpy as np

# get dataSet and labels by createDataSet
group,labels=createDataSet.createDataSet()

# classify
ans=classify.classify([1.1,1.2],group,labels,3)
print ans



























评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值