机器学习实战之kNN

最新推荐文章于 2024-04-01 13:43:03 发布

咆哮的大叔

最新推荐文章于 2024-04-01 13:43:03 发布

阅读量381

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/jiafeier_555/article/details/69250271

版权

机器学习专栏收录该内容

20 篇文章 0 订阅

订阅专栏

1 算法概述：
对于某测试样本，选择距离其最近的K个训练样本，将这K个训练样本中类别最多的标签作为此测试样本的标签，如下图所示：
这里写图片描述
绿色圆圈是测试样本，其他的是训练样本，KNN的思想就是基于距离的方法，主要是其中K的确定。如上图所示，如果假设K=3，则绿色测试样本就视为与红色小三角一个类别，如果假设K=5，则绿色测试样本就视为与蓝色小矩形一个类别。
算法优点：算法思想简单；精度高
算法缺点：样本过多时，计算量大；无法得到数据内在的含义
2 实现
2.1 python
1）导入数据

# -*- coding: utf-8 -*-    
from numpy import *
import operator
from os import listdir

#设置训练数据集， group表示具有多个属性的数据，lebels的每个值对应group每行数据的标签
def createDataSet():
    group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
    labels = ['A','A','B','B']
    return group, labels

这块没什么好说的，对了，第一行的# -- coding: utf-8 -- 最好加上，因为，如果你代码后面有中文注释的话，如果不加这一句，会报错。
2）构造kNN分类器

#该函数实现了kNN算法
#inX用于分类的输入向量，dataSet训练样本集，标签向量labels，k表示用于选择最近邻的数据，必须是整数
def classify0(inX, dataSet, labels, k):
    #训练数据集的行数,这里因为dataSet后被赋值成group，所以，这里的dataSet.shape[0]=4L
    dataSetSize = dataSet.shape[0]
    #计算A，B之间的欧式距离
    #tile(A,B)表示对A重复B次，B可以是int型也可以是数组形式
    #** 幂运算
    diffMat = tile(inX, (dataSetSize, 1)) - dataSet
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis = 1)  
    distances = sqDistances**0.5
    #排序，这里argsort()返回的是数据从小到大的索引值，这里返回的是数据所在的行数:[2,3,1,0]
    sortedDistIndicies = distances.argsort()
    classCount={}
    #选取距离最小的K个点，并统计每个类别出现的频率
    #这里用到了字典get(key,default=None)返回键值key对应的值
    #如果key没有在字典里，则返回default参数的值，默认None
    for i in range(k):
        #得到距离从小到大所对应的属性所属的特征[B,B,A]
        voteIlabel = labels[sortedDistIndicies[i]]
        #用dict键值对key-value存储特征voteIlable和次数，第一次出现的key没有对应的value,+1
        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1
    #逆序排序，找出出现频率最多的类别
    #operator.itegetter(1)根据第一个域(特征出现的次数)进行排序，（1，2）先根据第一个域排序，再根据第二个域排序
    #iteritems进行迭代
    sortedClassCount = sorted(classCount.iteritems(), key = operator.itemgetter(1), reverse = True) #排序
    return sortedClassCount[0][0]

这里代码中每一句都解释的很清楚了，没必要再重复一遍，这里有两个语法有必要说一下，便于python新手学习。
Axis=1 与axis=0 的区别，多说无益，还是上图吧！
这里写图片描述
Tile()的用法

2.2 matlab
构造KNN分类器

function resultLabel = KNN(inx,data,labels,k)
[datarow ,~] = size(data);
diffMat = repmat(inx,[datarow,1]) - data ;
distanceMat = sqrt(sum(diffMat.^2,2));
[B , IX] = sort(distanceMat,'ascend');
len = min(k,length(B));
resultLabel = mode(labels(IX(1:len)));
end

咆哮的大叔

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习实战之kNN

1 算法概述：对于某测试样本，选择距离其最近的K个训练样本，将这K个训练样本中类别最多的标签作为此测试样本的标签，如下图所示：绿色圆圈是测试样本，其他的是训练样本，KNN的思想就是基于距离的方法，主要是其中K的确定。如上图所示，如果假设K=3，则绿色测试样本就视为与红色小三角一个类别，如果假设K=5，则绿色测试样本就视为与蓝色小矩形一个类别。算法优点：算法思想简单；精度高算法缺点
复制链接

扫一扫

专栏目录