［机器学习实战］k-近邻算法

最新推荐文章于 2024-09-25 09:36:12 发布

ZoeGreenn

最新推荐文章于 2024-09-25 09:36:12 发布

阅读量566

点赞数

分类专栏： Machine Learning 文章标签：机器学习 python

本文链接：https://blog.csdn.net/sinat_21595363/article/details/50068453

版权

Machine Learning 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

- 用到的一些重要的python函数

operator.itemgetter函数
operator模块提供的itemgetter函数用于获取对象的哪些维的数据，参数为一些序号（即需要获取的数据在对象中的序号）
要注意，operator.itemgetter函数获取的不是值，而是定义了一个函数，通过该函数作用到对象上才能获取值。

sorted函数
Python内置的排序函数sorted可以对list或者iterator进行排序，该函数原型为：

sorted(iterable[, cmp[, key[, reverse]]])

参数解释：

（1）iterable指定要排序的list或者iterable，不用多说；

（2）cmp为函数，指定排序时进行比较的函数，可以指定一个函数或者lambda函数，如：

  students为类对象的list，没个成员有三个域，用sorted进行比较时可以自己定cmp函数，例如这里要通过比较第三个数据成员来排序，代码可以这样写：
  students = [('john', 'A', 15), ('jane', 'B', 12), ('dave', 'B', 10)]
  sorted(students, key=lambda student : student[2])

（3）key为函数，指定取待排序元素的哪一项进行排序，函数用上面的例子来说明，代码如下：
sorted(students, key=lambda student : student[2])

  key指定的lambda函数功能是去元素student的第三个域（即：student[2]），因此sorted排序时，会以students所有元素的第三个域来进行排序。

- 算法核心步骤

简单说明一下KNN的原理：
存在一个样本数据集合，也称为训练数据集，对于训练数据集中的每个数据，都有与之对应的标签，即它所属的类别。输入没有标签的新数据后（也就是我们需要预测的数据），将新数据的每个特征与训练数据集中对应的特征进行比较，提取出与训练集中特征最相似的数据所在的标签，即为预测的类别。
只选择训练集中前k个最相似的数据，计算出前k个数据出现次数最多的分类，作为预测的分类。

算法步骤：

**1）计算已知类别数据集中的点与当前点之间的距离；
2）按照距离递增次序排序；
3）选取与当前点距离最小的前k个点；
4）确定这前k个点的所在类别，并计算出类别频率
5）以前k个点所在类别出现频率最高的点作为预测点的类别**

其中，特征点之间的距离是指特征点之间欧式距离，一般采用的公式为：
这里写图片描述
这个算法假定所有的实例对应于 n 维欧氏空间Â n 中的点。一个实例的最近邻是根据标准欧氏距离定义的。更精确地讲，把任意的实例 x 表示为下面的特征向量：
< a 1 ( x ) ， a 2 ( x )，…， a n ( x )>

废话少说，放码过来：

# coding=utf-8
from numpy import *
import operator
from os import listdir

def createDataSet():
    group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
    labels=['A','A','B','B']
    return group,labels

def classify0(inX,dataSet,labels,k):

    #计算已知类别数据集中的点与当前点之间的距离
    dataSetSize=dataSet.shape[0]
    #使用tile()函数将inX数组在行方向上重复dataSetSize次，列方向上重复1次
    diffMat=tile(inX,(dataSetSize,1))-dataSet
    sqDiffMat=diffMat**2
    sqDistances=sqDiffMat.sum(axis=1)
    distances=sqDistances**0.5
    #将距离递增次序排序
    sortedDistIndicies=distances.argsort()
    classCount={}

    for i in range(k):
        #确定前k个距离最小的元素所在的主要分类
        votelIlabel=labels[sortedDistIndicies[i]]
        #确定前k个点所在类别的出现频率
        classCount[votalIlabel]=classCount.get(voteIlabel,0)+1
        #将频率从高到低排序
        sortedClassCount=sorted(classCount.iteritems(),key=operator.itemgetter(1),reverse=True)

    return sortedClassCount[0][0]