最近刚开始看这本书,个人感觉不错,所以记录一下主要的学习内容,同时跟着实现了一遍,将部分Python2的代码改成了Python3,不过基本没什么变化,下面言归正传。
1.工作原理
存在一个样本数据集合,即训练样本集,其中每个数据都存在标签。输入没有标签的测试数据,将测试数据的每个特征与样本集中数据对应的特征进行比较,然后提取样本集中最相似(最邻近)的分类标签。一般来说,只选取样本数据集中前k个最相似的数据,并对这k个数据的标签计数,计数值最大的标签即为测试数据的标签,通常k是不大于20的整数。
2.优缺点及适用范围
优点:精度高、对异常值不敏感、无数据输入假定。
缺点:计算复杂度高、空间复杂度高。
适用数据范围:数值型和标称型(标称型变量结果只在有限目标集中取值)。
3.代码实现
对于书中的代码,简单写了一些注释,方便理解(接触Python时间不长)。main函数中的每一段注释对应一次测试,运行对应代码时,为了方便查看结果,最好把其他代码段注释掉。
from numpy import *
import operator
import matplotlib
import matplotlib.pyplot as plt
from os import listdir
def createDataSet():
'''创建数据集'''
group = array([[1.0, 1.1],[1.0, 1.0],[0, 0],[0, 0.1]])
labels = ['A','A','B','B']
return group,labels
def classify0(inX, dataSet, labels, k):
'''创建分类器,inX为不带标签的测试数据,dataSet为训练数据集,labels为标签,k为近邻数'''
# 获取训练样本的数目
dataSetSize = dataSet.shape[0]
# 输入向量与所有样本向量作差得到一个矩阵
diffMat = tile(inX, (dataSetSize,1)) - dataSet
# 矩阵中的所有元素平方
sqDiffMat = diffMat ** 2
# 沿axis=1轴方向求和得到距离的平方和
sqDistances = sqDiffMat.sum(axis=1)
# 开平方得到距离
distances = sqDistances ** 0.5
# 按从小到大的次序对距离排序,提取其对应索引
sortedDistIndicies = distances.argsort()
# 创建字典
classCount = {}
# 选择距离最小的k个点
for i in range(k):
# 取出距离第i小的标签
voteIlabel = labels[sortedDistIndicies[i]]
# 将字典中对应标签计数值加一
classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
# 按计数值降序排列,此处迭代器采用python3的items()
sortedClassCount = sorted(classCount.items(),
key=operator.itemgetter(1),reverse=True)
# 返回计数值最大的标签
return sortedClassCount[0][0]
def file2matrix(filename):
'''将文本记录转换为NumPy的解析程序'''
fr = open(filename)
arrayOLines = fr.readlines()
# 得到文件的行数
numberOfLines = len(arrayOLines)
returnMat = zeros((numberOfLines,3))
classLabelVector = []
index = 0
for line in arrayOLines:
# 去除回车符
line = line.strip()
# 用制表符为分隔符返回分割后的字符串列表
listFromLine = line.split('\t')
# 选取前3个元素按行存入特征矩阵
returnMat[index,:] = listFromLine[0:3]
# 将最后一列元素即标签存入向量中
classLabelVector.append(int(listFromLine[-1]))
index += 1
return returnMat,classLabelVector
def autoNorm(dataSet):
'''归一化特征值'''
# 获取每一列的最小值
minVals = dataSet.min(0)
# 获取每一列的最大值
maxVals = dataSet.max(0)
ranges = maxVals - minVals
normDataSet = zeros(shape(dataSet))
m = dataSet.shape[0]
normDataSet = dataSet - tile(minVals,(m,1))
normDataSet = normDataSet / tile(ranges,(m,1))
return normDataSet,ranges,minVals
def datingClassTest():
'''分类器针对约会网站的测试代码'''
# 测试样本比率
hoRatio = 0.10
datingDataMat,datingLabels = file2matrix('datingTestSet2.txt')
normMat,ranges,minVals = autoNorm(datingDataMat)
m = normMat.shape[0]
# 测试样本数
numTestVecs = int(m * hoRatio)
errorCount = 0.0
for i in range(numTestVecs):
classifierResult = classify0(normMat[i,:],normMat[numTestVecs:m,:],
datingLabels[numTestVecs:m],3)
print('the classifier came back with: {},the real answer is: {}'.
format(classifierResult,datingLabels[i]))
if classifierResult != datingLabels[i]:
errorCount += 1.0
print('the total error rate is: {}'.format(errorCount / float(numTestVecs)))
def classifyPerson():
'''约会网站预测函数'''
resultList = ['not at all','in small doses','in large doses']
percentTats = float(input('percentage of time spent playing video games?'))
ffMiles = float(input("frequent flier miles earned per year?"))
iceCream = float(input('liters of ice cream consumed per year?'))
datingDataMat,datingLabels = file2matrix('datingTestSet2.txt')
normMat,ranges,minVals = autoNorm(datingDataMat)
inArr = array([ffMiles,percentTats,iceCream])
classifierResult = classify0((inArr - minVals) / ranges,normMat,datingLabels,3)
print('You will probably like this person: {}'.format(resultList[classifierResult - 1]))
def img2vector(filename):
'''将图像(32x32)格式化处理为一个向量(1x1024)'''
returnVect = zeros((1,1024))
fr = open(filename)
for i in range(32):
lineStr = fr.readline()
for j in range(32):
returnVect[0,32 * i + j] = int(lineStr[j])
return returnVect
def handwritingClassTest():
'''手写数字识别系统的测试代码'''
hwLabels = []
# 获取目录内容
trainingFileList = listdir('trainingDigits')
m = len(trainingFileList)
trainingMat = zeros((m,1024))
for i in range(m):
fileNameStr = trainingFileList[i]
# 截去后缀名取得文件名
fileStr = fileNameStr.split('.')[0]
# 得到文本文件所表示的数字
classNumStr = int(fileStr.split('_')[0])
hwLabels.append(classNumStr)
trainingMat[i,:] = img2vector('trainingDigits/{}'.format(fileNameStr))
testFileList = listdir('testDigits')
errorCount = 0.0
mTest = len(testFileList)
for i in range(mTest):
fileNameStr = testFileList[i]
fileStr = fileNameStr.split('.')[0]
classNumStr = int(fileStr.split('_')[0])
vectorUnderTest = img2vector('testDigits/{}'.format(fileNameStr))
classifierResult = classify0(vectorUnderTest,trainingMat,hwLabels,3)
print('the classifier came back with: {},the real answer is: {}'.
format(classifierResult,classNumStr))
if classifierResult != classNumStr:
errorCount += 1.0
print('the total number of errors is: {}'.format(errorCount))
print('the total error rate is: {}'.format(errorCount/float(mTest)))
if __name__ == '__main__':
# 1.knn分类器
# group, labels = createDataSet()
# print(classify0([0, 0], group, labels, 3))
# 2.打开数据文件取出特征矩阵和标签向量
# datingDataMat, datingLabels = file2matrix('datingTestSet2.txt')
# print(datingDataMat)
# print(datingLabels)
# 3.使用Matplotlib创建散点图
# fig = plt.figure()
# ax = fig.add_subplot(111)
# ax.scatter(datingDataMat[:,0],datingDataMat[:,1],
# 15.0 * array(datingLabels),15.0 * array(datingLabels))
# plt.show()
# 4.归一化特征值
# normMat,ranges,minVals = autoNorm(datingDataMat)
# print(normMat)
# print(ranges)
# print(minVals)
# 5.执行分类器测试数据
# datingClassTest()
# 6.约会网站预测
# classifyPerson()
# 7.测试img2vector函数
# testVector = img2vector('testDigits/0_13.txt')
# print(testVector[0,0:31])
# print(testVector[0,32:63])
# 8.执行手写数字识别分类器测试预测结果
handwritingClassTest()
4.相关文件
之前不知道在哪下载的,这里给出本文用到的相关文件。
链接: https://pan.baidu.com/s/1Rk1FvGqnKtmMALKaAa7rgg 提取码: q57g
参考资料
- 机器学习实战