机器学习实战（1）--KNN

最新推荐文章于 2024-04-25 18:29:35 发布

西风2022

最新推荐文章于 2024-04-25 18:29:35 发布

阅读量134

点赞数 2

分类专栏：机器学习

本文链接：https://blog.csdn.net/niehewang/article/details/80315764

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

邻近算法，或者说K最近邻(kNN，k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。

kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 kNN方法在类别决策时，只与极少量的相邻样本有关。由于kNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，kNN方法较其他方法更为适合。

kNN算法步骤：

1.计算已知类别数据集中的点与当前点之间的距离；

2.按照距离递增次序排序；

3.选取与当前点距离最小的k个点；

4.确定前k个点所在类别的出现频率；

5.返回前k个点所出现频率最高的类别作为当前点的预测分类。

利用kNN求解书上分类电影例子：

# -*- coding: UTF-8 -*-
import numpy as np
import operator

#导入数据
def createDataSet():
    #特征数组
    group = np.array([[1,101],[5,89],[108,5],[115,8]])
    #标签数组
    labels = ['爱情片','爱情片','动作片','动作片']
    return group, labels

#分类器
def classify0(inX, dataSet, labels, k):
    #numpy函数shape[0]返回dataSet的行数
    dataSetSize = dataSet.shape[0]
    diffMat = np.tile(inX, (dataSetSize, 1)) - dataSet
    #二维特征相减后平方
    sqDiffMat = diffMat**2
    #sum()所有元素相加，sum(0)列相加，sum(1)行相加
    sqDistances = sqDiffMat.sum(axis=1)
    #开方，计算出距离
    distances = sqDistances**0.5
    #返回distances中元素从小到大排序后的索引值
    sortedDistIndices = distances.argsort()
    #定一个记录类别次数的字典
    classCount = {}
    for i in range(k):
        #取出前k个元素的类别
        voteIlabel = labels[sortedDistIndices[i]]
        #dict.get(key,default=None),字典的get()方法,返回指定键的值,如果值不在字典中返回默认值。
        #计算类别次数
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
    sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
    #返回次数最多的类别,即所要分类的类别
    return sortedClassCount[0][0]

if __name__ == '__main__':
    #创建数据集
    group, labels = createDataSet()
    #测试集
    test = [101,20]
    #kNN分类
    test_class = classify0(test, group, labels, 3)
    #打印分类结果
    print(test_class)

部分所调用的函数的说明：

max(0)：求每行最大值

max(1)：求每列最大值

shape[0]：求行数

shape[1]：求列数

numpy.tile()是个什么函数呢，说白了，就是把数组沿各个方向复制

比如 a =np.array([0,1,2]), np.tile(a,(2,1))就是把a先沿x轴（就这样称呼吧）复制1倍，即没有复制，仍然是 [0,1,2]。再把结果沿y方向复制2倍，即最终得到array([[0,1,2],

[0,1,2]])

同理：

>>> b = np.array([[1, 2], [3, 4]])

>>> np.tile(b, 2) #沿X轴复制2倍

array([[1, 2, 1, 2],

[3, 4, 3, 4]])

>>> np.tile(b, (2, 1))#沿X轴复制1倍（相当于没有复制），再沿Y轴复制2倍

array([[1, 2],

[3, 4],

[1, 2],

[3, 4]])

operator.itemgetter函数
operator模块提供的itemgetter函数用于获取对象的哪些维的数据，参数为一些序号（即需要获取的数据在对象中的序号），下面看例子。

a = [1,2,3]
>>> b=operator.itemgetter(1) //定义函数b，获取对象的第1个域的值
>>> b(a)
2
>>> b=operator.itemgetter(1,0) //定义函数b，获取对象的第1个域和第0个的值
>>> b(a)
(2, 1)

要注意，operator.itemgetter函数获取的不是值，而是定义了一个函数，通过该函数作用到对象上才能获取值。

sorted函数
Python内置的排序函数sorted可以对list或者iterator进行排序

该函数原型为：

sorted(iterable[, cmp[, key[,reverse]]])

参数解释：

（1）iterable指定要排序的list或者iterable，不用多说；

（2）cmp为函数，指定排序时进行比较的函数，可以指定一个函数或者lambda函数，如：

students为类对象的list，没个成员有三个域，用sorted进行比较时可以自己定cmp函数，例如这里要通过比较第三个数据成员来排序，代码可以这样写：
students = [('john', 'A', 15), ('jane', 'B', 12), ('dave', 'B', 10)]
sorted(students, key=lambda student : student[2])
（3）key为函数，指定取待排序元素的哪一项进行排序，函数用上面的例子来说明，代码如下：

sorted(students, key=lambda student :student[2])

key指定的lambda函数功能是去元素student的第三个域（即：student[2]），因此sorted排序时，会以students所有元素的第三个域来进行排序。

     有了上面的operator.itemgetter函数，也可以用该函数来实现，例如要通过student的第三个域排序，可以这么写：
         sorted(students, key=operator.itemgetter(2))
         sorted函数也可以进行多级排序，例如要根据第二个域和第三个域进行排序，可以这么写：
         sorted(students, key=operator.itemgetter(1,2))

即先跟句第二个域排序，再根据第三个域排序。
（4）reverse参数就不用多说了，是一个bool变量，表示升序还是降序排列，默认为false（升序排列），定义为True时将按降序排列。