Python机器学习(二)--kNN算法实现

最新推荐文章于 2024-07-17 16:07:01 发布

自在逍遥

最新推荐文章于 2024-07-17 16:07:01 发布

阅读量7.7k

点赞数

分类专栏： Python 学习机器学习&模式识别文章标签：机器学习 KNN python

本文链接：https://blog.csdn.net/alvine008/article/details/36175177

版权

Python 学习同时被 2 个专栏收录

29 篇文章 1 订阅

订阅专栏

机器学习&模式识别

6 篇文章 3 订阅

订阅专栏

一、KNN算法具体原理

wiki的链接：http://zh.wikipedia.org/wiki/%E6%9C%80%E8%BF%91%E9%84%B0%E5%B1%85%E6%B3%95

K-NN是一种基于实例的学习，或者是局部近似和将所有计算推迟到分类之后的惰性学习。k-近邻算法是所有的机器学习算法中最简单的之一：被分配的对象被列为了其邻域对象较多的类别的K近邻算法是最常见的（k是一个正整数，通常很小）。如果k=1，那么对象被简单分配给其近邻的类。

同样的方法可以用于回归，如：简单地将对象的属性值分配为其K近邻的属性值的平均值。它可以有效的衡量邻居的权重，使较近邻居的权重比较远邻居的权重大。（一种常见的加权方案是给每个邻居权重赋值为1/ d，其中d是到邻居的距离。这个方案是一个线性插值的推广。）

邻居都取自一组已经正确分类（在回归的情况下，指属性值正确）的对象。虽然没要求明确的训练步骤，但这也可以当作是一种训练样本集的算法。k-近邻算法对数据的局部结构是非常敏感的。近邻算法能用一种有效的方式准确地计算决策边界^[1]。

这个图灰常形象

具体分类过程如下：
1 首先我们事先定下k值（就是指k近邻方法的k的大小，代表对于一个待分类的数据点，我们要寻找几个它的邻居）。这边为了说明问题，我们取两个k值，分别为3和9；
2 根据事先确定的距离度量公式（如：欧氏距离），得出待分类数据点和所有已知类别的样本点中，距离最近的k个样本。
3 统计这k个样本点中，各个类别的数量。如上图，如果我们选定k值为3，则正类样本（三角形）有1个，负类样本（圆形）有2个，那么我们就把这个方形数据点定为负类；而如果我们选择k值为9，则正类样本（三角形）有5个，负类样本（圆形）有4个，那么我们这个数据点定为正类。即，根据k个样本中，数量最多的样本是什么类别，我们就把这个数据点定为什么类别。

训练样本是多维特征空间向量，其中每个训练样本带有一个类别标签。算法的训练阶段只包含存储的特征向量和训练样本的标签。在分类阶段，k是一个用户定义的常数。一个没有类别标签的向量（查询或测试点）将被归类为最接近该点的K个样本点中最频繁使用的一类。一般情况下，将欧氏距离作为距离度量，但是这是只适用于连续变量。在文本分类这种非连续变量情况下，另一个度量——重叠度量（或海明距离）可以用来作为度量。通常情况下，如果运用一些特殊的算法来计算度量的话，K近邻分类精度可显著提高，如运用大边缘最近邻法或者近邻成分分析法。

“多数表决”分类的一个缺点是出现频率较多的样本将会主导测试点的预测结果，那是因为他们比较大可能出现在测试点的K邻域而测试点的属性又是通过K领域内的样本计算出来的^[2]。解决这个缺点的方法之一是在进行分类时将样本到测试点的距离考虑进去。

二、KNN具体实现

KNN.py 用于生成数据

import numpy
from numpy import *
import operator

def createDateSet():
    group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
    labels = ['A','A','B','B']
    return group, labels

python 实现KNN算法

from numpy import *
import operator
def classify(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]
    diffMat = tile(inX, (dataSetSize,1)) - dataSet
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis=1)
    distances = sqDistances**0.5
    sortedDistIndicies = distances.argsort()
    classCount = {}
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel, 0) +1
    sortedClassCount = sorted(classCount.iteritems(),
        key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]

在Python 中输入下列：

group,labels =KNN.createDataSet()

KNN.classify([0,0], group, labels,3)

结果为:B

其中tile函数的用法如下：

Python:用numpy扩充数组元素之repeat和tile