1.分析
1.1 原理
存在一个训练样本集,样本集中每个数据都有标签(可以知道它是属于哪一个分类)当我们输入一个没有标签的样本新数据,通过算法来将新数据的每个特征与样本集中的数据对应的特征进行比较,然后提取特征最相似的数据(最近邻)的分类标签,因为我们一般选取前k个最相似的,所以叫k-近邻算法。通常k是不大于20的整数,最后,选择k个最相似的数据中出现次数最多的分类,作为新数据的分类。
1.2 算法描述
- 计算测试数据与各个训练数据之间的距离
- 按照距离的递增关系排序
- 选择距离最小的k个点
- 确定前k个点所在类别出现的频率
- 返回前k个点中出现频率最高的类别作为测试数据的预测分类
1.3 优缺点
优点:精度高,对异常数据不敏感(你的类别是由邻居中的大多数决定的,一个异常邻居并不能影响太大),无数据输入假定;算法简单,容易理解,无复杂机器学习算法。
缺点:计算复杂度高(需要计算新的数据点与样本集中每个数据的“距离”,以判断是否是前k个邻居),空间复杂度高(巨大的矩阵)
2.实践(《机器学习实战》第二章代码解析)
示例一:用 k 近邻算法改进网站的配对效果
题目:一个女生把交友网站里面的异性分为三类人:不喜欢,魅力一般,极具魅力。她收集了一个数据集(datingTestSet2.txt),每个样本是一行,包括了1.每年获得飞行里程;2.玩游戏时间百分比;3.每周消耗冰淇淋公斤数;4.类别。用这些数据来进行训练模型来分类。
2.1.数据预处理
def file2matrix(filename):#把数据处理成分类器能用的格式
love_dictionary = {'largeDoses':3, 'smallDoses':2, 'didntLike':1} # 三个类别
fr = open(filename) # 打开文件
arrayOLines = fr.readlines() # 逐行打开
numberOfLines = len(arrayOLines) #得到文件的行数
returnMat = np.zeros((numberOfLines, 3)) #初始化特征矩阵numberOfLines行3列
classLabelVector = [] #初始化输出标签向量
index = 0
for line in arrayOLines:
line = line.strip() # 删去字符串首部尾部空字符
listFromLine = line.split('\t') # 按'\t'(制表符(\t))对字符串进行分割,listFromLine 是列表
returnMat[index, :] = listFromLine[0:3] # listFromLine的0,1,2元素是特征,赋值给returnMat的当前行(index)的所有列(:);[0:3]不取3
#书中这个代码我觉得是怕数据集出错,直接写入类别的字符串(实际查看并没有发现错误)
if(listFromLine[-1].isdigit()): # 如果listFromLine最后一个元素是数字
classLabelVector.append(int(listFromLine[-1])) # 直接赋值给classLabelVector
else: # 如果listFromLine最后一个元素是字符串
classLabelVector.append(love_dictionary.get(listFromLine[-1])) # 根据字典love_dictionary转化为数字
index += 1
return returnMat, classLabelVector # 返回的类别标签classLabelVector是1,2,3
2.2 定义特征归一化函数
作用: 处理这种不同取值范围的特征值时,如果这三个特征的权重相同, 数值归一化能够将不同特征的取值范围限定在同一区间例如[0,1]之间,让不同特征对距离的计算影响 相同 方法:newValue=(oldValue-min)/(max-min),把具体的数值转化成占总取值范围的几分之几
def autoNorm(dataSet):
minVals = dataSet.min(0)#对dataset这个矩阵返回每一列(0表示列,1表示行)的最小值,所以返回的是一个一维列表
maxVals = dataSet.max(0)
ranges = maxVals - minVals#三个特征(三列)的取值范围(一维数组)
normDataSet = np.zeros(np.shape(dataSet))#定义一个和dataSet一样的矩阵normDataSe
m = dataSet.shape[0]#shape的第一维长度:行的长度
normDataSet = dataSet - np.tile(minVals, (m, 1))#把数组minVals沿(m,1)方向复制
normDataSet = normDataSet/np.tile(ranges, (m, 1))
return normDataSet, ranges, minVals
2.3 实现k 近邻算法
def classify0(inX, dataSet, labels, k): # inX是输入要测试的向量,dataSet是训练集,lebels是训练样本标签,k是取的最近邻个数
dataSetSize = dataSet.shape[0] # 数组行数就是训练样本个数
diffMat = np.tile(inX, (dataSetSize, 1)) - dataSet#样本的每个特征都要和训练集的每个特征进行相减
sqDiffMat = diffMat**2#数组里面每个数都进行平方(不是矩阵相乘)
sqDistances = sqDiffMat.sum(axis=1)#axis=1表示按行相加
distances = sqDistances**0.5 # distance是inX与dataSet的欧氏距离
sortedDistIndicies = distances.argsort() # 返回排序从小到大的索引位置
classCount = {} # 字典存储k近邻不同label出现的次数,因为是类似key-value所以用{}如{1:1,2:3}
for i in range(k):#range表示1到k之间的数字
voteIlabel = labels[sortedDistIndicies[i]]
classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1 # 关键语句!:对应label加1,classCount中若无此key,则默认为0
sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True) # items()把字典变为可以遍历的形式,operator.itemgetter 获取字典的键值对中的值
return sortedClassCount[0][0] # 字典已经通过sorted变为可遍历对象(二维数组)返回k近邻中所属类别最多的那一类(第一行第一列)
2.4 测试算法:作为完整程序验证分类器
def datingClassTest():
hoRatio = 0.10 #整个数据集的10%用来测试
datingDataMat, datingLabels = file2matrix('datingTestSet.txt') #导入数据集
normMat, ranges, minVals = autoNorm(datingDataMat) # 所有特征归一化
m = normMat.shape[0] # 样本个数
numTestVecs = int(m*hoRatio) # 测试样本个数
errorCount = 0.0
for i in range(numTestVecs):
# 第一个是输入要测试的向量(遍历所有测试样本:0到numTestVecs),
#训练集:numTestVecs到m,lebels是训练样本标签,取的最近邻个数3
classifierResult = classify0(normMat[i, :], normMat[numTestVecs:m, :], datingLabels[numTestVecs:m], 3)
print("the classifier came back with: %d, the real answer is: %d" % (classifierResult, datingLabels[i]))
if (classifierResult != datingLabels[i]): errorCount += 1.0
print("the total error rate is: %f" % (errorCount / float(numTestVecs))) # 打印错误率
print(errorCount) # 打印错误个数
2.5 使用算法:构建完整可用系统
根据用户输入,在线判断类别
def classifyPerson():
resultList = ['not at all', 'in small doses', 'in large doses']
percentTats = float(input("percentage of time spent playing video games?"))
ffMiles = float(input("frequent flier miles earned per year?"))
iceCream = float(input("liters of ice cream consumed per year?"))
datingDataMat, datingLabels = file2matrix('datingTestSet2.txt')
normMat, ranges, minVals = autoNorm(datingDataMat)
inArr = np.array([ffMiles, percentTats, iceCream, ])#最后一列是要预测的标签,放空
classifierResult = classify0((inArr -minVals)/ranges, normMat, datingLabels, 3)#要预测的样本必须要经过归一化处理才可以比对
print("You will probably like this person: %s" % resultList[classifierResult - 1])
示例二:手写识别系统
2.6 定义将图像转换为向量函数
def img2vector(filename):#把像素文件转化为向量
returnVect = np.zeros((1, 1024)) # 存储图片像素的向量维度是1x1024,有1024个像素点
fr = open(filename)
for i in range(32):
lineStr = fr.readline()
for j in range(32):
returnVect[0, 32*i+j] = int(lineStr[j]) # 图片尺寸是32x32,将其依次放入向量returnVect中
return returnVect
2.7 定义手写数字识别系统函数
def handwritingClassTest():
# 训练样本
hwLabels = []
trainingFileList = listdir('./digits/trainingDigits') #导入训练集
m = len(trainingFileList)
trainingMat = np.zeros((m, 1024))#m行1024列的矩阵初始化0
for i in range(m):
fileNameStr = trainingFileList[i] # fileNameStr 得到的是每个文件名称,例如"0_0.txt"
fileStr = fileNameStr.split('.')[0] #去掉“.txt”,剩下“0_0”
classNumStr = int(fileStr.split('_')[0]) # 按下划线‘_' 划分“0_0”,取第一个元素为类别标签
hwLabels.append(classNumStr)
trainingMat[i, :] = img2vector('./digits/trainingDigits/%s' % fileNameStr)
# 测试样本
testFileList = listdir('./digits/testDigits') #iterate through the test set
errorCount = 0.0
mTest = len(testFileList)
for i in range(mTest):
fileNameStr = testFileList[i] # fileNameStr 得到的是每个文件名称,例如"0_0.txt"
fileStr = fileNameStr.split('.')[0] #去掉“.txt”,剩下“0_0”
classNumStr = int(fileStr.split('_')[0]) # 按下划线‘_' 划分“0_0”,取第一个元素为类别标签
vectorUnderTest = img2vector('./digits/testDigits/%s' % fileNameStr)
classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3) # 调用knn函数
print("the classifier came back with: %d, the real answer is: %d" % (classifierResult, classNumStr))
if (classifierResult != classNumStr): errorCount += 1.0
print("\nthe total number of errors is: %d" % errorCount)
print("\nthe total error rate is: %f" % (errorCount/float(mTest)))