机器学习实战之kNN

1 算法概述:
对于某测试样本,选择距离其最近的K个训练样本,将这K个训练样本中类别最多的标签作为此测试样本的标签,如下图所示:
这里写图片描述
绿色圆圈是测试样本,其他的是训练样本,KNN的思想就是基于距离的方法,主要是其中K的确定。如上图所示,如果假设K=3,则绿色测试样本就视为与红色小三角一个类别,如果假设K=5,则绿色测试样本就视为与蓝色小矩形一个类别。
算法优点:算法思想简单;精度高
算法缺点:样本过多时,计算量大;无法得到数据内在的含义
2 实现
2.1 python
1)导入数据

# -*- coding: utf-8 -*-    
from numpy import *
import operator
from os import listdir

#设置训练数据集, group表示具有多个属性的数据,lebels的每个值对应group每行数据的标签
def createDataSet():
    group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
    labels = ['A','A','B','B']
    return group, labels

这块没什么好说的,对了,第一行的# -- coding: utf-8 -- 最好加上,因为,如果你代码后面有中文注释的话,如果不加这一句,会报错。
2)构造kNN分类器

#该函数实现了kNN算法
#inX用于分类的输入向量,dataSet训练样本集,标签向量labels,k表示用于选择最近邻的数据,必须是整数
def classify0(inX, dataSet, labels, k):
    #训练数据集的行数,这里因为dataSet后被赋值成group,所以,这里的dataSet.shape[0]=4L
    dataSetSize = dataSet.shape[0]
    #计算A,B之间的欧式距离
    #tile(A,B)表示对A重复B次,B可以是int型也可以是数组形式
    #** 幂运算
    diffMat = tile(inX, (dataSetSize, 1)) - dataSet
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis = 1)  
    distances = sqDistances**0.5
    #排序,这里argsort()返回的是数据从小到大的索引值,这里返回的是数据所在的行数:[2,3,1,0]
    sortedDistIndicies = distances.argsort()
    classCount={}
    #选取距离最小的K个点,并统计每个类别出现的频率
    #这里用到了字典get(key,default=None)返回键值key对应的值
    #如果key没有在字典里,则返回default参数的值,默认None
    for i in range(k):
        #得到距离从小到大所对应的属性所属的特征[B,B,A]
        voteIlabel = labels[sortedDistIndicies[i]]
        #用dict键值对key-value存储特征voteIlable和次数,第一次出现的key没有对应的value,+1
        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1
    #逆序排序,找出出现频率最多的类别
    #operator.itegetter(1)根据第一个域(特征出现的次数)进行排序,(1,2)先根据第一个域排序,再根据第二个域排序
    #iteritems进行迭代
    sortedClassCount = sorted(classCount.iteritems(), key = operator.itemgetter(1), reverse = True) #排序
    return sortedClassCount[0][0]

这里代码中每一句都解释的很清楚了,没必要再重复一遍,这里有两个语法有必要说一下,便于python新手学习。
Axis=1 与axis=0 的区别,多说无益,还是上图吧!
这里写图片描述
Tile()的用法
这里写图片描述
2.2 matlab
构造KNN分类器

function resultLabel = KNN(inx,data,labels,k)
[datarow ,~] = size(data);
diffMat = repmat(inx,[datarow,1]) - data ;
distanceMat = sqrt(sum(diffMat.^2,2));
[B , IX] = sort(distanceMat,'ascend');
len = min(k,length(B));
resultLabel = mode(labels(IX(1:len)));
end
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值