《视觉学习实践》实验一：实现K近邻分类器

UestcXiye

已于 2022-12-23 18:35:12 修改

阅读量475

点赞数

分类专栏：计算机视觉文章标签：学习 python

于 2022-12-01 13:26:16 首次发布

本文链接：https://blog.csdn.net/ProgramNovice/article/details/128130468

版权

计算机视觉专栏收录该内容

12 篇文章 7 订阅

订阅专栏

《视觉学习实践》实验一：实现K近邻分类器

《视觉学习实践》实验一：实现K近邻分类器

《视觉学习实践》实验一：实现K近邻分类器

实验内容

数据预处理；
实现K近邻算法；
绘制图像；
运行程序，比较结果。

实验算法设计

数据预处理

将实验数据转存到data.txt中，放在data文件夹下。设计一个loadData函数，函数的输入是filepath，表示文件路径。函数的功能是读取这个文件，将数据转为浮点数，存储在一个列表中。函数的输出是列表data。代码如下：

# 读取数据
def loadData(filepath):
    data = []
    f = open(filepath, 'r')
    for line in f:
        data.append(np.array(line.split(','), dtype=np.string_).astype(np.float64))
    return data

同时，无论是对实验数据还是测试数据，都要进行归一化处理。代码如下：

# 数据归一化处理
def autoNorm(dataSet):
    minVals = dataSet.min(0)
    maxVals = dataSet.max(0)
    ranges = maxVals - minVals
    m = dataSet.shape[0]
    normDataSet = dataSet - np.tile(minVals, (m, 1))
    # print normDataSet
    normDataSet = normDataSet / np.tile(ranges, (m, 1))
    # print normDataSet
    return normDataSet, ranges, minVals


# 测试数据归一化
def normTest(dataSet, ranges, minVals):
    return (dataSet - minVals) / ranges

实现K近邻算法
函数的输入是测试样本、样本集、标签和k值。距离采用的是欧氏距离，即：

在这里插入图片描述

函数的功能是计算测试样本与样本集中各样本的距离，按逆序排序后，得到k个距离测试样本最近的样本的标签集，测试样本的标签就是标签集中出现次数最多的标签。函数的输出是测试样本的标签。代码如下：

# 分类
def classify(test, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]
    diffMat = np.tile(test, (dataSetSize, 1)) - dataSet
    sqDiffMat = diffMat ** 2
    sqDistances = sqDiffMat.sum(axis=1)
    distances = sqDistances ** 0.5
    sortedDistIndicies = distances.argsort()

    classCount = {}
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1
    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]

绘制图像
绘制散点图，好瓜用绿色圆点表示，坏瓜用红色圆点表示。再绘制测试样本，用星形点表示，根据前面得到的分类结果，若它是好瓜，则用绿色表示；若它是坏瓜，则用红色表示。代码如下：

# 绘图
good_melons = group[:8]
bad_melons = group[-9:]
# print(good_melons)
# print(bad_melons)
for melon in good_melons:
    plt.scatter(melon[0], melon[1], color='green')
for melon in bad_melons:
    plt.scatter(melon[0], melon[1], color='red')
if c == '是':
    plt.scatter(test[0], test[1], marker='*', color='green')
else:
    plt.scatter(test[0], test[1], marker='*', color='red')
plt.savefig('实验结果.jpg')
plt.show()

测试
编写测试代码如下所示：

# 测试
filepath = 'data/data.txt'
data = loadData(filepath)
group = np.array(data)
labels = ['是', '是', '是', '是', '是', '是', '是', '是', '否', '否', '否', '否', '否', '否', '否', '否', '否']
normDataSet, ranges, minVals = autoNorm(group)
test = [0.61, 0.2]
normtest = normTest(test, ranges, minVals)
c = classify(normtest, normDataSet, labels, 3)
print('类别为：%s' % c)

算法及创新

K近邻（K-Nearest Neighbour，简称KNN），常用于有监督学习，是最常用的分类算法之一。算法非常简单，即给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的K个实例，这K个实例的多数属于某个类，就把该输入实例分类到这个类中。

下面为算法概述：

输入：训练样本集，训练样本集对应的类别标签，测试数据。
输出：测试数据对应的分类标签。

步骤1：将新数据的每个特征与样本集中的数据对应的特征进行比较；
步骤2：提取样本集中特征最相似的k个数据的分类标签；
步骤3：统计这k个标签中出现次数最多的类别，作为新数据的类别。

K近邻算法流程图如下所示：

在这里插入图片描述

本实验的创新点在于：实现了K不同取值时分类实验，分析实验结果。采用了LP距离、欧氏距离等不同距离计算验证K近邻分类结果，并分析讨论。

实验数据及结果分析

给定的数据样本是西瓜数据集3.0α，如表1所示。

编号	密度	含糖率	好瓜
1	0.697	0.460	是
2	0.774	0.376	是
3	0.634	0.264	是
4	0.608	0.318	是
5	0.556	0.215	是
6	0.403	0.237	是
7	0.481	0.149	是
8	0.437	0.211	是
9	0.666	0.091	否
10	0.243	0.267	否
11	0.245	0.057	否
12	0.343	0.099	否
13	0.639	0.161	否
14	0.657	0.198	否
15	0.360	0.370	否
16	0.593	0.042	否
17	0.719	0.103	否

设置k=3，测试样本为test = [0.61, 0.2]，运行程序。程序输出类别为否。程序绘制的散点图如图2所示。

在这里插入图片描述

修改k=5，再次运行程序。程序输出类别为是。程序绘制的散点图如图3所示。

从散点图可以看出，当k=3时，程序判断测试样本是坏瓜，标记为红色；但当k=5时，程序判断测试样本是好瓜，标记为绿色。从上述实验结果可以看出，K近邻算法根据离测试样本最近的K个样本点的标签来决定它的标签，程序得到的结果是正确的。
在K近邻算法中改用LP距离（l=1,p=4），即：

# 分类
def classify(test, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]
    diffMat = np.tile(test, (dataSetSize, 1)) - dataSet
    sqDiffMat = diffMat ** 4
    sqDistances = sqDiffMat.sum(axis=1)
    distances = sqDistances ** 0.25
    sortedDistIndicies = distances.argsort()

    classCount = {}
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1
    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]