第一步:准备输入数据(数据预处理)
①新建一个kNN函数文件,为后续程序去调用使用它。
from numpy import *
import operator
def creatDataSet():
group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]]) # 4*2 四行两列的数组
labels = ['A', 'A', 'B', 'B'] # 一个行向量 四列1*4
return group, labels
**
labels包含的元素个数等于group矩阵行数。
**
②在kNN里定义一个分类函数:classify0
# -*- coding:utf-8 -*-
from numpy import *
import operator
def creatDataSet():
group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]]) # 4*2 四行两列的数组
labels = ['A', 'A', 'B', 'B'] # 一个行向量 四列1*4
return group, labels
# group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])
# print(group)
# labels = ['A', 'A', 'B', 'B']
# print(labels)
def classify0(inX, dataSet, labels, k): # inX预测结果 dataSet训练数据集 labels训练集的标签集合 K
dataSetSize = dataSet.shape[0] # .shape[0]作为矩阵的方法调用,0代表返回矩阵第一维度的长度,二维矩阵第一维也就是行数。
diffMat = tile(inX, (dataSetSize, 1)) - dataSet # 把inX的数据在行方向复制dataSetSize(4)次 在列上复制1次 得到跟dataSet行列数相同的新数组
sqDiffMat = diffMat ** 2 # 每一个位置的数平方 第一行的两列数是测试集与第一个数据集的平方差
# 如 [[101,88] [[100,90]
# [101,88] [105,60]
# [101,88] [109,10]
# [101,88]] [110,80]]
sqDistances = sqDiffMat.sum(axis=1) # sum(0)表示列相加 sum(1)表示行相加 行相加之后变成行向量了 一行的数据相加得到一个数值了 1行N列
distances = sqDistances ** 0.5
sortedDistIndicies = distances.argsort() # 进行距离大小的排序返回索引
classCount = {} # 定义一个字典 字典的键(key)为标签 字典的值为K近邻次标签出现的次数
for i in range(k): # 循环K次 对标签进行计数
voteIlabel = labels[sortedDistIndicies[i]] # 循环取出标签集合里面的元素(取出标签集合第一个标签)
classCount[voteIlabel] = classCount.get(voteIlabel, 0) # 统计该标签出现次数,计数
# classCount.get(voteIlabel,0)返回字典classCount中voteIlabel元素对应的值,若无,则进行初始化(操作如下)
# 若不存在voteIlabel,则字典classCount中生成voteIlabel元素,并使其对应的数字为0,即 classCount = {voteIlabel:0} 次数记为0
# 此时classCount.get(voteIlabel, 0)作用是检测并生成新元素,括号中的0只用作初始化,之后再无作用
# 当字典中有voteIlabel元素时,classCount.get(voteIlabel,0)作用是返回该元素对应的值,即0
sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
# items函数,将一个字典以列表的形式返回,因为字典是无序的,所以返回的列表也是无序的。 iteritems()返回一个迭代器
# operator.itemgetter(1)为例,作用是读取元组iteritems内的第2列,即字典classCount = {‘A’:1,‘B’:2,‘C’:3}中的[1, 2, 3]
# key=operator.itemgetter(1)根据字典的值进行排序
# key=operator.itemgetter(0)根据字典的键进行排序
# reverse降序排序
return sortedClassCount[0][0] # 返回次数最多的类别标签