机器学习实战——k近邻算法（kNN）01

最新推荐文章于 2023-10-09 21:09:59 发布

vickyleexy

最新推荐文章于 2023-10-09 21:09:59 发布

阅读量847

点赞数

分类专栏：机器学习 python 文章标签：机器学习算法

本文链接：https://blog.csdn.net/u012150360/article/details/71057201

版权

python 同时被 2 个专栏收录

28 篇文章 0 订阅

订阅专栏

机器学习

18 篇文章 0 订阅

订阅专栏

有监督的学习算法。简而言之，k-近邻算法采用测量不同特征之间的距离方法进行分类。

工作原理：

　　存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分类标签。
　　一般来说，我们只选择样本数据集中前k个最相似的数据，这就是k-近邻算法中k的出处，通常k是不大于20的整数。

k-近邻算法的一般流程

1.收集数据：可以使用任何方法。
2.准备数据：距离计算所需要的数值，最好是结构化的数据格式。
3.分析数据：可以使用任何方法。
4.训练算法：此步骤不适用于k-近邻算法
5.测试数据：计算错误率
6.使用算法：首先需要输入样本数据和结构化的输出结果，然后运行k-近邻算法判定输入数据分别属于哪个类别，最后应用对计算出的分类执行后续的处理。

test1

准备：使用Python导入数据
“kNN.py”

# -*- coding=utf-8 -*-
from numpy import *
import operator   #本模块主要包括一些Python内部操作符对应的函数。这些函数主要分为几类：对象比较、逻辑比较、算术运算和序列操作

def createDataSet():
    group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
    labels = ['A','A','B','B']
    return group,labels

在终端执行：

In[3]import kNN  #导入上述模块
In[4]group,labels = kNN.createDataSet()
In[5]: group
Out[5]: 
array([[ 1. ,  1.1],
       [ 1. ,  1. ],
       [ 0. ,  0. ],
       [ 0. ,  0.1]])
In[6]: labels
Out[6]: 
['A', 'A', 'B', 'B']

实施kNN算法

伪代码：
对位置类别属性的数据集中的每个点依次执行以下操作：
（1）计算已知类别数据中的点与当前点之间的距离
（2）按照距离递增次序排序
（3）选取与当前点距离最小的k个点
（4）确定前k个点所在类别的出现频率
（5）返回前k个点出现频率最高的类别作为当前点的预测分类

# k-近邻算法
def classify0(inX,dataSet,labels,k):  #inX是用于分类的输入向量的inX, dataSet是输入的训练样本集, labels为标签向量, k表示用于选择最近的邻居数目
    #计算距离
    dataSetSize = dataSet.shape[0]
    diffMat = tile(inX,(dataSetSize,1)) - dataSet
    sqDiffMat = diffMat ** 2
    sqDistances = sqDiffMat.sum(axis=1) #注释1
    distances = sqDistances ** 0.5
    sortedDistIndicies = distances.argsort() #注释2
        classCount = {}
    #选择距离最小的k个点
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel,0) +1 #注释3
    #排序
    sortedClassCount = sorted(classCount.iteritems(),
                              key = operator.itemgetter(1),reverse= True) #注释4
    return sortedClassCount[0][0]

上面代码用的距离计算是：
这里写图片描述

代码注释：
1. 我们平时用的sum应该是默认的axis=0 就是普通的相加，而当加入axis=1以后就是将一个矩阵的每一行向量相加，
例如：import numpy as np 　　
　　　np.sum([[0,1,2],[2,1,3]],axis=1)
　　　的结果就是：array（[3,6]）
2. argsort函数返回的是数组值从小到大的索引值，
例如：x = np.array([3, 1, 2])
　　　np.argsort(x)
　　　结果为：array([1, 2, 0])
3. list.get(k,d)
get相当于一条if…else…语句,参数k在字典中，字典将返回list[k];如果参数k不在字典中则返回参数d,如果K在字典中则返回k对应的value值；
例子：
l = {5:2,3:4}
print l.get(3,0)返回的值是4；
Print l.get（1,0）返回值是0；
4. sorted函数：
sorted(iterable, cmp=None, key=None, reverse=False)
参数解释：
（1）iterable指定要排序的list或者iterable，不用多说；
（2）cmp为函数，指定排序时进行比较的函数，可以指定一个函数或者lambda函数，如：
students为类对象的list，每个成员有三个域，用sorted进行比较时可以自己定cmp函数，例如这里要通过比较第三个数据成员来排序，代码可以这样写：
students = [(‘john’, ‘A’, 15), (‘jane’, ‘B’, 12), (‘dave’, ‘B’, 10)]
sorted(students, key=lambda student : student[2])
（3）key为函数，指定取待排序元素的哪一项进行排序，函数用上面的例子来说明，代码如下：
sorted(students, key=lambda student : student[2])
key指定的lambda函数功能是取元素student的第三个域（即：student[2]），因此sorted排序时，会以students所有元素的第三个域来进行排序。
有了上面的operator.itemgetter函数，也可以用该函数来实现，例如要通过student的第三个域排序，可以这么写：
sorted(students, key=operator.itemgetter(2))
sorted函数也可以进行多级排序，例如要根据第二个域和第三个域进行排序，可以这么写：
sorted(students, key=operator.itemgetter(1,2))

在终端输入：

 kNN.classify0([0,0],group,labels,3)

vickyleexy

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习实战——k近邻算法（kNN）01

有监督的学习算法。简而言之，k-近邻算法采用测量不同特征之间的距离方法进行分类。工作原理：　　存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分类标签。　　一般来说，我们只选择样本数据集中前k个最相似的数
复制链接

扫一扫