转载请注明作者和出处:http://blog.csdn.net/john_bh/
运行平台: Windows
Python版本: Python2.7
IDE: Sublime text3
一 k-近邻算法
1.1 k-近邻算法概述
k-近邻算法(k-nearest neighbor, k-NN)是1967年由Cover T和Hart P提出的一种基本分类与回归方法。
工作原理:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每一个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般来说我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处,通常k是不大于20的整数,最后,选择k个最相似数据中出现次数最多的分类,作为新数据的分类。
简单的说,k-邻近算法采用测量不同而特征值之间的距离方法进行分类。
优点:
- 简单好用,容易理解,精度高,理论成熟,既可以用来做分类也可以用来做回归;
- 精度高、对异常值不敏感;
- 训练时间复杂度为O(n),无数据输入假定;
- 可用于数值型数据和离散型数据
缺点:
- 计算复杂度高、空间复杂度高;
- 样本不平衡问题(即有些类别的样本数量很多,而其它样本的数量很少);
- 一般数值很大的时候不用这个,计算量太大。但是单个样本又不能太少,否则容易发生误分;
- 最大的缺点是无法给出数据的内在含义
使用数据范围:值类型和标称型
k-近邻算法的一般流程:
1. 收集数据:可以使用任何方法;
2. 准备数据:距离计算所有需要的值,最好是结构化的数据格式;
3. 分析数据:可以使用任何方法;
4. 训练算法:此步骤不使用k-近邻算法;
5. 测试算法:计算错误率;
6. 使用算法:首先要输入样本数据和结构化的输出结果,然后运行k-近邻算法判定输入数据非别属于哪个分类,最后应用对计算出的分类执行后续的处理。
电影分类实例:使用k-近邻算法分类爱情片和动作片。
电影名称 | 打斗镜头 | 接吻镜头 | 电影类型 |
---|---|---|---|
电影一 | 3 | 104 | 爱情电影 |
电影二 | 2 | 100 | 爱情电影 |
电影三 | 1 | 81 | 爱情电影 |
电影四 | 101 | 10 | 动作电影 |
电影五 | 99 | 5 | 动作电影 |
电影六 | 98 | 2 | 动作电影 |
未知 | 18 | 90 | 未知 |
首先,需要知道这个未知电影存在多少个打斗镜头和接吻镜头,表1.1是每部电影的打斗镜头数、接吻镜头数以及电影评估类型,这是已有的数据结合,也是训练样本集。用肉眼粗略地观察,接吻镜头多的,是爱情片。打斗镜头多的,是动作片。以我们多年的看片经验,这个分类还算合理。如果现在给我一部电影,你告诉我这个电影打斗镜头数和接吻镜头数。不告诉我这个电影类型,我可以根据你给我的信息进行判断,这个电影是属于爱情片还是动作片。而k-近邻算法也可以像我们人一样做到这一点,不同的地方在于,我们的经验更”牛逼”,而k-邻近算法是靠已有的数据。比如,你告诉我这个电影打斗镜头数为2,接吻镜头数为102,我的经验会告诉你这个是爱情片,k-近邻算法也会告诉你这个是爱情片。你又告诉我另一个电影打斗镜头数为49,接吻镜头数为51,我”邪恶”的经验可能会告诉你,这有可能是个”爱情动作片”,画面太美,我不敢想象。但是k-近邻算法不会告诉你这些,因为在它的眼里,电影类型只有爱情片和动作片,它会提取样本集中特征最相似数据(最邻近)的分类标签,得到的结果可能是爱情片,也可能是动作片,但绝不会是”爱情动作片”。当然,这些取决于数据集的大小以及最近邻的判断标准等因素。
1.2 距离度量
图1.1 电影分类
已经知道k-近邻算法根据特征比较,然后提取样本集中特征最相似数据(最邻近)的分类标签,首先要计算未知电影与样本集中其他电影的距离,公式如下:
得出已知电影与未知电影的距离如下表1-2:
电影名称 | 与未知电影的距离 |
---|---|
电影一 | 20.5 |
电影二 | 18.7 |
电影三 | 19.2 |
电影四 | 115.3 |
电影五 | 117.4 |
电影六 | 118.9 |
得到样本集中所有电影与未知电影的距离,按照距离递增排序,可以找到k个距离最近的电影,假定k=3,则最靠近的电影依次是电影二、电影三、电影一。k-临近算法按照距离最近的三个电影的类型,决定未知电影的类型,而这三部电影全部是爱情片,因此我们判定未知电影是爱情片。
1.3 python代码实现
已经知道k-近邻算法的原理和步骤,接下来使用python语言实现该算法
1.3.1使用python导入数据
# -*- coding: UTF-8 -*-
from numpy import *
import operator
def createDataSet():
#六组数据的二维特征值
group=array([[3,104],[2,100],[1,81],[101,10],[99,5],[98,2]])
#六组数据的特征标签
labels = ['爱情片','爱情片','爱情片','动作片','动作片','动作片']
return group,labels
if __name__ == '__main__':
#创建数据集
group, labels = createDataSet()
#打印数据集
print(group)
print(labels)
1.3.2实施kNN算法
对未知类别属性的数据集中的每个点依次执行以下操作:
1. 计算已知类别数据集中的点与当前点之间的距离;
2. 按照距离递增次序排序;
3. 选取与当前点距离最小的k个点;
4. 确定前k个点所在类别的出现频率;
5. 返回前k个点所出现频率最高的类别作为当前点的预测分类。
根据两点距离公式,计算距离,选择距离最小的前k个点,并返回分类结果。预测未知电影(18,90)的类别,K-NN的k值为3,结果为爱情片。
# -*- coding: UTF-8 -*-
from numpy import *
import operator
"""
函数说明:创建数据集
Returns:
group - 数据集
labels - 分类标签
"""
def createDataSet():
#六组数据的二维特征值
group=array([[3,104],[2,100],[1,81],[101,10],[99,5],[98,2]])
#六组数据的特征标签
labels = ['爱情片','爱情片','爱情片','动作片','动作片','动作片']
return group,labels
"""
函数说明:kNN算法,分类器
Parameters:
inX - 用于分类的数据(测试集)
dataSet - 用于训练的数据(训练集)
labes - 分类标签
k - kNN算法参数,选择距离最小的k个点
Returns:
sortedClassCount[0][0] - 分类结果
"""
def classify0(inX,dataSet,labels,k):
dataSetSize=dataSet.shape[0] #shape[0]返回dataSet的行数
#计算距离
#tile([18,90],(6,1))在列向量方向上重复inX共1次(横向),行向量方向上重复inX共dataSetSize次(纵向),
#结果是[[18,90],[18,90],[18,90],[18,90],[18,90],[18,90]]
diffMat=tile(inX,(dataSetSize,1))-dataSet
sqDiffMat=diffMat**2 #二维特征相减后平方
sqDistances=sqDiffMat.sum(axis=1) #sum()所有元素相加,sum(0)列相加,sum(1)行相加
distances=sqDistances**0.5 #开方,计算出距离
sortedDistIndices=distances.argsort() #argsort()对distances中元素从小到大排序,然后返回distances中元素从小到大排序后的索引值
#选择距离最小的k个点
classCount={} #定义一个记录类别次数的字典
for i in range(k):
voteIlabel=labels[sortedDistIndices[i]] #取出前k个元素的类别
#dict.get(key,defaule=None),字典的get()方法,返回指定键的值,如果值不在字典中返回默认值。
#计算类别次数
classCount[voteIlabel]=classCount.get(voteIlabel,0)+1
#python2中的iteritems(),如果是python3中,用items()替换
#key=operator.itemgetter(1)根据字典的值进行排序,key=operator.itemgetter(0)根据字典的键进行排序
#reverse降序排序字典
sortedClassCount =sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
#返回次数最多的类别,即所要分类的类别
return sortedClassCount[0][0]
if __name__ == '__main__':
#创建数据集
group, labels = createDataSet()
#测试集
test = [18,90]
#kNN分类
test_class = classify0(test, group, labels, 3)
#打印分类结果
print(test_class)
输出结果为:
图1.3 输出结果
1.3.3如何测试分类器
我们已经使用k-近邻算法构造了一个分类器,也可以检验分类器给出的答案是否符合我们的预期,但是,“分类器何种情况下会出错?”或者“答案是否总是正确的?”答案是否定的,分类器并不会得到百分百正确的结果,我们可以使用多种方法检测分类器的正确率。此外分类器的性能也会受到多种因素的影响,如分类器设置和数据集等。不同的算法在不同数据集上的表现可能完全不同。为了测试分类器的效果,我们可以使用已知答案的数据,当然答案不能告诉分类器,检验分类器给出的结果是否符合预期结果。通过大量的测试数据,我们可以得到分类器的错误率-分类器给出错误结果的次数除以测试执行的总数。错误率是常用的评估方法,主要用于评估分类器在某个数据集上的执行效果。完美分类器的错误率为0,最差分类器的错误率是1.0,这种情况下,分类器根部无法找到一个正确的答案。同时,我们也不难发现,k-近邻算法没有进行数据的训练,直接使用未知的数据与已知的数据进行比较,得到结果。因此,可以说k-邻近算法不具有显式的学习过程。
二 k-近邻算法改进实战之约会网站配对效果
海伦女士一直使用在线约会网站寻找适合自己的约会对象。尽管约会网站会推荐不同的任选,但她并不是喜欢每一个人。经过一番总结,她发现自己交往过的人可以进行如下分类:
- 不喜欢的人
- 魅力一般的人
- 极具魅力的人
海伦收集约会数据已经有了一段时间,她把这些数据存放在文本文件datingTestSet.txt中,每个样本数据占据一行,总共有1000行。
datingTestSet.txt数据下载
海伦收集的样本数据主要包含以下3种特征:
- 每年获得的飞行常客里程数
- 玩视频游戏所消耗时间百分比
- 每周消费的冰淇淋公升数
在约会网站上使用k-近邻算法的一般流程:
1. 收集数据:可以使用爬虫进行数据的收集,也可以使用第三方提供的免费或收费的数据。一般来讲,数据放在txt文本文件中,按照一定的格式进行存储,便于解析及处理。
2. 准备数据:使用Python解析、预处理数据。
3. 分析数据:可以使用很多方法对数据进行分析,例如使用Matplotlib将数据可视化。
4. 训练算法:此步骤不使用k-近邻算法;
5. 测试算法:计算错误率。使用海伦提供的部分数据作为测试样本。测试样本和非测试样本的区别在于:测试样本是应经完成分类的数据,如果测试分类与实际类别不同,则标记为一个错误。
6. 使用算法:错误率在可接受范围内,就可以运行k-近邻算法进行分类。产生简单的命令行程序,然后海伦可以输入一些特征数据以判断对方是否为自己喜欢的类型。
2.1 准备数据:从文本文件中解析数据
在将上述特征数据输入到分类器前,必须将待处理的数据的格式改变为分类器可以接收的格式。分类器接收的数据是什么格式的?从上小结已经知道,要将数据分类两部分,即特征矩阵和对应的分类标签向量。在k-NNAppointment.py文件中创建名为file2matrix的函数,以此来处理输入格式问题。该函数的输入为文件名字符串,输出是训练样本矩阵和类标签向量。 将datingTestSet.txt放到与kNN_test02.py相同目录下,编写代码如下:
# -*- coding: UTF-8 -*-
from numpy import *
"""
函数说明:打开并解析文件,对数据进行分类:1代表不喜欢,2代表魅力一般,3代表极具魅力
Parameters:
filename - 文件名
Returns:
returnMat - 特征矩阵
classLabelVector - 分类Label向量
"""
def file2matrix(filename):
fr=open(filename) #打开文件
arrayOLines=fr.readlines() #读取文件所有内容
numberOfLines=len(arrayOLines) #得到文件行数
returnMat=zeros((numberOfLines,3)) #返回的NumPy矩阵,解析完成的数据:numberOfLines行,3列
classLabelVector=[] #返回的分类标签向量
index=0 #行的索引值
for line in arrayOLines:
line=line.strip() #strip(rm),当rm空时,默认删除空白符(包括'\n','\r','\t',' ')
listFromLine=line.split('\t') #使用line.split(str="",num=string,cout(str))将字符串根据'\t'分隔符进行切片。
returnMat[index,:]=listFromLine[0:3] #将数据前三列提取出来,存放到returnMat的NumPy矩阵中,也就是特征矩阵
#根据文本中标记的喜欢的程度进行分类,1代表不喜欢,2代表魅力一般,3代表极具魅力
#classLabelVector.append(int(listFromLine[-1]))
if listFromLine[-1] == 'didntLike':
classLabelVector.append(1)
elif listFromLine[-1] == 'smallDoses':
classLabelVector.append(2)
elif listFromLine[-1] == 'largeDoses':
classLabelVector.append(3)
index+=1
return returnMat,classLabelVector
if __name__ == '__main__':
#打开的文件名
filename = "datingTestSet.txt"
#打开并处理数据
datingDataMat, datingLabels = file2matrix(filename)
print(datingDataMat)
print(datingLabels)
得到的数据解析结果如图2.1所示:
图2.1 数据解析结果
python处理文本文件非常容易。
首先,我们需要知道文本文件包含多少行。打开文件,得到文件的行数;
第二,然后创建以零填充的矩阵Numy,为了简化处理,我们将该矩阵的另一维度设置为固定的值3;然后循环处理文件中的每一行数据。使用line.strip()截取掉所有的回车字符,使用tab字符\t将将上一步得到的整行数据分割成一个元素列表,接着取前3个元素,将他们存储到特征矩阵中。使用索引值-1表示列表中最后一列的元素,利用这种负索引,将最后一列的值存储到向量classLabelVector中。需要注意的是我们必须明确的通知解释器,告诉他列表中存储的元素值为整型,否则python语言会将这些元素当做字符串处理。
第三,返回样本矩阵和分类标签向量。
可以看到,我们已经顺利导入数据,并对数据进行解析,格式化为分类器需要的数据格式。接着我们需要了解数据的真正含义。可以通过友好、直观的图形化的方式观察数据。通过python工具来图形化展示数据内容以便辨识出一些数据模式。
2.2 分析数据:使用Matplotlib创建散点图
安装Matplotlib包:python -m pip install matplotlib
在k-NNAppointment.py文件中编写名为showdatas的函数,用来将数据可视化。编写代码如下:
# -*- coding: UTF-8 -*-
from numpy import *
from matplotlib.font_manager import FontProperties
import matplotlib.lines as mlines
import matplotlib.pyplot as plt
"""
函数说明:打开并解析文件,对数据进行分类:1代表不喜欢,2代表魅力一般,3代表极具魅力
Parameters:
filename - 文件名
Returns:
returnMat - 特征矩阵
classLabelVector - 分类Label向量
"""
def file2matrix(filename):
fr=open(filename) #打开文件
arrayOLines=fr.readlines() #读取文件所有内容
numberOfLines=len(arrayOLines) #得到文件行数
returnMat=zeros((numberOfLines,3)) #返回的NumPy矩阵,解析完成的数据:numberOfLines行,3列
classLabelVector=[] #返回的分类标签向量
index=0 #行的索引值
for line in arrayOLines:
line=line.strip() #strip(rm),当rm空时,默认删除空白符(包括'\n','\r','\t',' ')
listFromLine=line.split('\t') #使用line.split(str="",num=string,cout(str))将字符串根据'\t'分隔符进行切片。
returnMat[index,:]=listFromLine[0:3] #将数据前三列提取出来,存放到returnMat的NumPy矩阵中,也就是特征矩阵
#根据文本中标记的喜欢的程度进行分类,1代表不喜欢,2代表魅力一般,3代表极具魅力
#classLabelVector.append(int(listFromLine[-1]))
if listFromLine[-1] == 'didntLike':
classLabelVector.append(1)
elif listFromLine[-1] == 'smallDoses':
classLabelVector.append(2)
elif listFromLine[-1] == 'largeDoses':
classLabelVector.append(3)
index+=1
return returnMat,classLabelVector
"""
函数说明:可视化数据
Parameters:
datingDataMat - 特征矩阵
datingLabels - 分类Label
"""
def showdatas(datingDataMat, datingLabels):
#设置汉字格式
font = FontProperties(fname=r"c:\windows\fonts\simsun.ttc", size=14)
#将fig画布分隔成1行1列,不共享x轴和y轴,fig画布的大小为(13,8)
#当nrow=2,nclos=2时,代表fig画布被分为四个区域,axs[0][0]表示第一行第一个区域
fig, axs = plt.subplots(nrows=2, ncols=2,sharex=False, sharey=False, figsize=(13,8))
numberOfLabels = len(datingLabels)
LabelsColors = []
for i in datingLabels:
if i == 1:
LabelsColors.append('black')
if i == 2:
LabelsColors.append('orange')
if i == 3:
LabelsColors.append('red')
#画出散点图,以datingDataMat矩阵的第一(飞行常客例程)、第二列(玩游戏)数据画散点数据,散点大小为15,透明度为0.5
axs[0][0].scatter(x=datingDataMat[:,0], y=datingDataMat[:,1], color=LabelsColors,s=15, alpha=.5)
#设置标题,x轴label,y轴label
axs0_title_text = axs[0][0].set_title(u'每年获得的飞行常客里程数与玩视频游戏所消耗时间占比',FontProperties=font)
axs0_xlabel_text = axs[0][0].set_xlabel(u'每年获得的飞行常客里程数',FontProperties=font)
axs0_ylabel_text = axs[0][0].set_ylabel(u'玩视频游戏所消耗时间占',FontProperties=font)
plt.setp(axs0_title_text, size=9, weight='bold', color='red')
plt.setp(axs0_xlabel_text, size=7, weight='bold', color='black')
plt.setp(axs0_ylabel_text, size=7, weight='bold', color='black')
#画出散点图,以datingDataMat矩阵的第一(飞行常客例程)、第三列(冰激凌)数据画散点数据,散点大小为15,透明度为0.5
axs[0][1].scatter(x=datingDataMat[:,0], y=datingDataMat[:,2], color=LabelsColors,s=15, alpha=.5)
#设置标题,x轴label,y轴label
axs1_title_text = axs[0][1].set_title(u'每年获得的飞行常客里程数与每周消费的冰激淋公升数',FontProperties=font)
axs1_xlabel_text = axs[0][1].set_xlabel(u'每年获得的飞行常客里程数',FontProperties=font)
axs1_ylabel_text = axs[0][1].set_ylabel(u'每周消费的冰激淋公升数',FontProperties=font)
plt.setp(axs1_title_text, size=9, weight='bold', color='red')
plt.setp(axs1_xlabel_text, size=7, weight='bold', color='black')
plt.setp(axs1_ylabel_text, size=7, weight='bold', color='black')
#画出散点图,以datingDataMat矩阵的第二(玩游戏)、第三列(冰激凌)数据画散点数据,散点大小为15,透明度为0.5
axs[1][0].scatter(x=datingDataMat[:,1], y=datingDataMat[:,2], color=LabelsColors,s=15, alpha=.5)
#设置标题,x轴label,y轴label
axs2_title_text = axs[1][0].set_title(u'玩视频游戏所消耗时间占比与每周消费的冰激淋公升数',FontProperties=font)
axs2_xlabel_text = axs[1][0].set_xlabel(u'玩视频游戏所消耗时间占比',FontProperties=font)
axs2_ylabel_text = axs[1][0].set_ylabel(u'每周消费的冰激淋公升数',FontProperties=font)
plt.setp(axs2_title_text, size=9, weight='bold', color='red')
plt.setp(axs2_xlabel_text, size=7, weight='bold', color='black')
plt.setp(axs2_ylabel_text, size=7, weight='bold', color='black')
#设置图例
didntLike = mlines.Line2D([], [], color='black', marker='.',markersize=6, label='didntLike')
smallDoses = mlines.Line2D([], [], color='orange', marker='.',markersize=6, label='smallDoses')
largeDoses = mlines.Line2D([], [], color='red', marker='.',markersize=6, label='largeDoses')
#添加图例,legend: 设置图例和其中的文本的显示
axs[0][0].legend(handles=[didntLike,smallDoses,largeDoses])
axs[0][1].legend(handles=[didntLike,smallDoses,largeDoses])
axs[1][0].legend(handles=[didntLike,smallDoses,largeDoses])
#显示图片
plt.show()
if __name__ == '__main__':
#打开的文件名
filename = "datingTestSet.txt"
#打开并处理数据
datingDataMat, datingLabels = file2matrix(filename)
showdatas(datingDataMat, datingLabels)
运行上述代码,可以看到可视化结果如图2.2所示:
图2.2 可视化结果
通过数据可以很直观的发现数据的规律,第一个散点图(每年获得的飞行常客里程数与玩视频游戏所消耗时间占比数据散点图),通过图中的两个特征更容易区分数据点属于的类别,另外两个则不容易区分。如果只考虑这二维的特征信息,给我的感觉就是海伦喜欢有生活质量的男人。为什么这么说呢?每年获得的飞行常客里程数表明,海伦喜欢能享受飞行常客奖励计划的男人,但是不能经常坐飞机,疲于奔波,满世界飞。同时,这个男人也要玩视频游戏,并且占一定时间比例。能到处飞,又能经常玩游戏的男人是什么样的男人?很显然,有生活质量,并且生活悠闲的人。
2.3 准备数据:数据归一化
表2.1给出了提取的四组数据,如果想要计算样本3和样本4之间的距离,可以使用以下公式:
(0−67)2+(20000−32000)2+(1.1−0.1)2−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√
样本 | 玩游戏所耗时间百分比 | 每年获得的飞行常用里程数 | 每周消费的冰淇淋公升数 | 样本分类 |
---|---|---|---|---|
1 | 0.8 | 400 | 0.5 | 1 |
2 | 12 | 134000 | 0.9 | 3 |
3 | 0 | 20000 | 1.1 | 2 |
4 | 67 | 32000 | 0.1 | 2 |
我们很容易发现,上面方程中数字差值最大的属性对计算结果的影响最大,也就是说,每年获取的飞行常客里程数对于计算结果的影响将远远大于表2.1中其他两个特征—-玩视频游戏所耗时间占比和每周消费冰淇淋公斤数—-的影响。而产生这种现象的唯一原因,仅仅是因为飞行常客里程数远大于其他特征值。但海伦认为这三种特征是同等重要的,因此作为三个等权重的特征之一,飞行常客里程数并不应该如此严重地影响到计算结果。
在处理这种不同取值范围的特征值时,我们通常采用的方法是将数值归一化,如将取值范围处理为0到1或者-1到1之间。下面的公式可以将任意取值范围的特征值转化为0到1区间内的值:
newValue = (oldValue - min) / (max - min)
其中min和max分别是数据集中的最小特征值和最大特征值。虽然改变数值取值范围增加了分类器的复杂度,但为了得到准确结果,我们必须这样做。在k-NNAppointment.py文件中编写名为autoNorm的函数,用该函数自动将数据归一化。代码如下:
# -*- coding: UTF-8 -*-
from numpy import *
from matplotlib.font_manager import FontProperties
import matplotlib.lines as mlines
import matplotlib.pyplot as plt
"""
函数说明:打开并解析文件,对数据进行分类:1代表不喜欢,2代表魅力一般,3代表极具魅力
Parameters:
filename - 文件名
Returns:
returnMat - 特征矩阵
classLabelVector - 分类Label向量
"""
def file2matrix(filename):
fr=open(filename) #打开文件
arrayOLines=fr.readlines() #读取文件所有内容
numberOfLines=len(arrayOLines) #得到文件行数
returnMat=zeros((numberOfLines,3)) #返回的NumPy矩阵,解析完成的数据:numberOfLines行,3列
classLabelVector=[] #返回的分类标签向量
index=0 #行的索引值
for line in arrayOLines:
line=line.strip() #strip(rm),当rm空时,默认删除空白符(包括'\n','\r','\t',' ')
listFromLine=line.split('\t') #使用line.split(str="",num=string,cout(str))将字符串根据'\t'分隔符进行切片。
returnMat[index,:]=listFromLine[0:3] #将数据前三列提取出来,存放到returnMat的NumPy矩阵中,也就是特征矩阵
#根据文本中标记的喜欢的程度进行分类,1代表不喜欢,2代表魅力一般,3代表极具魅力
#classLabelVector.append(int(listFromLine[-1]))
if listFromLine[-1] == 'didntLike':
classLabelVector.append(1)
elif listFromLine[-1] == 'smallDoses':
classLabelVector.append(2)
elif listFromLine[-1] == 'largeDoses':
classLabelVector.append(3)
index+=1
return returnMat,classLabelVector
"""
函数说明:对数据进行归一化
Parameters:
dataSet - 特征矩阵
Returns:
normDataSet - 归一化后的特征矩阵
ranges - 数据范围
minVals - 数据最小值
"""
def autoNorm(dataSet):
#设置数据的最大,最小值
minVals=dataSet.min(0)
maxVals=dataSet.max(0)
ranges=maxVals-minVals #最大值和最小值的范围
normDataSet=zeros(shape(dataSet)) #shape(dataSet)返回dataSet的矩阵行列数
m=dataSet.shape[0] #返回dataSet的行数
normDataSet=dataSet-tile(minVals,(m,1)) #原始值减去最小值
normDataSet=normDataSet/tile(ranges,(m,1)) #除以最大和最小值的差,得到归一化数据
#返回归一化数据结果,数据范围,最小值
return normDataSet,ranges,minVals
if __name__ == '__main__':
#打开的文件名
filename = "datingTestSet.txt"
#打开并处理数据
datingDataMat, datingLabels = file2matrix(filename)
#showdatas(datingDataMat, datingLabels)
normDataSet, ranges, minVals = autoNorm(datingDataMat)
print(normDataSet)
print(ranges)
print(minVals)
结果如图2.3 归一化函数运行结果所示:
图2.3 归一化函数运行结果
在函数autoNorm()中,我们将每列的最小值放在变量minVals中,将最大值放在变量maxVals中,其中dataSet.min(0)中的参数 0使得函数可以从列中选取最小值,而不是取当前行的最小值。然后用函数计算可能的取值范围,并且创建新的返回矩阵,正如前面给的公式,为了归一化特征值,我们必须使用当前值减去最小值,然后除以取值范围。需要注意的是,特征值矩阵有1000x3个值,而minVals和maxVals的值都是1x3。为了解决这个问题,我们是用Numpy库中的tile()函数将变量的内容复制成输入矩阵同样大小的矩阵,注意这是具体特征值相除,而对于某些数值处理软件包,/可能意味着矩阵除法,但是在Numpy中矩阵除法需要使用函数linalg.solve(marA,marB)。
2.4 测试算法:作为完整程序验证分类器
这里将测试分类器的效果,如果分类器的正确率满足要求,海伦就可以使用这个软件来处理约会网站提供的约会名单了。机器学习算法一个很重要的工作就是评估算法的正确率,通常我们只提供已有数据的90%作为训练样本来训练分类器,而使用其余的10%数据去测试分类器,检测分类器的正确率。需要注意的是,10%的测试数据应该是随机选择的,由于海伦提供的数据并没有按照特定目的来排序,所以我么你可以随意选择10%数据而不影响其随机性。
对于分类器来说,错误率就是分类器给出错误结果的次数,除以测试数据的总数,完美的分类器的错误率是0,而错误率为1.0的分类器是不会给出任何正确的分类结果。代码中定义一个计数器变量,每次分类器错误的分类数据,计数器就加1,程序完成之后计数器的结果除以数据点总数即是错误率。
在k-NNAppointment.py文件中创建函数datingClassTest,编写代码如下:
# -*- coding: UTF-8 -*-
from numpy import *
from matplotlib.font_manager import FontProperties
import matplotlib.lines as mlines
import matplotlib.pyplot as plt
import operator
"""
函数说明:kNN算法,分类器
Parameters:
inX - 用于分类的数据(测试集)
dataSet - 用于训练的数据(训练集)
labes - 分类标签
k - kNN算法参数,选择距离最小的k个点
Returns:
sortedClassCount[0][0] - 分类结果
"""
def classify0(inX, dataSet, labels, k):
#numpy函数shape[0]返回dataSet的行数
dataSetSize = dataSet.shape[0]
#在列向量方向上重复inX共1次(横向),行向量方向上重复inX共dataSetSize次(纵向)
diffMat = tile(inX, (dataSetSize, 1)) - dataSet
#二维特征相减后平方
sqDiffMat = diffMat**2
#sum()所有元素相加,sum(0)列相加,sum(1)行相加
sqDistances = sqDiffMat.sum(axis=1)
#开方,计算出距离
distances = sqDistances**0.5
#返回distances中元素从小到大排序后的索引值
sortedDistIndices = distances.argsort()
#定一个记录类别次数的字典
classCount = {}
for i in range(k):
#取出前k个元素的类别
voteIlabel = labels[sortedDistIndices[i]]
#dict.get(key,default=None),字典的get()方法,返回指定键的值,如果值不在字典中返回默认值。
#计算类别次数
classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
#python3中用items()替换python2中的iteritems()
#key=operator.itemgetter(1)根据字典的值进行排序
#key=operator.itemgetter(0)根据字典的键进行排序
#reverse降序排序字典
sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
#返回次数最多的类别,即所要分类的类别
return sortedClassCount[0][0]
"""
函数说明:打开并解析文件,对数据进行分类:1代表不喜欢,2代表魅力一般,3代表极具魅力
Parameters:
filename - 文件名
Returns:
returnMat - 特征矩阵
classLabelVector - 分类Label向量
"""
def file2matrix(filename):
fr=open(filename) #打开文件
arrayOLines=fr.readlines() #读取文件所有内容
numberOfLines=len(arrayOLines) #得到文件行数
returnMat=zeros((numberOfLines,3)) #返回的NumPy矩阵,解析完成的数据:numberOfLines行,3列
classLabelVector=[] #返回的分类标签向量
index=0 #行的索引值
for line in arrayOLines:
line=line.strip() #strip(rm),当rm空时,默认删除空白符(包括'\n','\r','\t',' ')
listFromLine=line.split('\t') #使用line.split(str="",num=string,cout(str))将字符串根据'\t'分隔符进行切片。
returnMat[index,:]=listFromLine[0:3] #将数据前三列提取出来,存放到returnMat的NumPy矩阵中,也就是特征矩阵
#根据文本中标记的喜欢的程度进行分类,1代表不喜欢,2代表魅力一般,3代表极具魅力
#classLabelVector.append(int(listFromLine[-1]))
if listFromLine[-1] == 'didntLike':
classLabelVector.append(1)
elif listFromLine[-1] == 'smallDoses':
classLabelVector.append(2)
elif listFromLine[-1] == 'largeDoses':
classLabelVector.append(3)
index+=1
return returnMat,classLabelVector
"""
函数说明:对数据进行归一化
Parameters:
dataSet - 特征矩阵
Returns:
normDataSet - 归一化后的特征矩阵
ranges - 数据范围
minVals - 数据最小值
"""
def autoNorm(dataSet):
#设置数据的最大,最小值
minVals=dataSet.min(0)
maxVals=dataSet.max(0)
ranges=maxVals-minVals #最大值和最小值的范围
normDataSet=zeros(shape(dataSet)) #shape(dataSet)返回dataSet的矩阵行列数
m=dataSet.shape[0] #返回dataSet的行数
normDataSet=dataSet-tile(minVals,(m,1)) #原始值减去最小值
normDataSet=normDataSet/tile(ranges,(m,1)) #除以最大和最小值的差,得到归一化数据
#返回归一化数据结果,数据范围,最小值
return normDataSet,ranges,minVals
"""
函数说明:分类器测试函数
Parameters:
datingDataMat - 特征矩阵
datingLabels - 分类Label向量
normMat - 归一化后的特征矩阵
ranges - 数据范围
minVals - 数据最小值
Returns:
无
"""
def datingClassTest(datingDataMat, datingLabels,normMat, ranges, minVals):
#取所有数据的百分之十
hoRatio = 0.10
#获得normMat的行数
m = normMat.shape[0]
#百分之十的测试数据的个数
numTestVecs = int(m * hoRatio)
#分类错误计数
errorCount = 0.0
for i in range(numTestVecs):
#前numTestVecs个数据作为测试集,后m-numTestVecs个数据作为训练集
classifierResult = classify0(normMat[i,:], normMat[numTestVecs:m,:],
datingLabels[numTestVecs:m], 4)
print("分类结果:%d\t真实类别:%d" % (classifierResult, datingLabels[i]))
if classifierResult != datingLabels[i]:
errorCount += 1.0
print("错误率:%f%%" %(errorCount/float(numTestVecs)*100))
if __name__ == '__main__':
#打开的文件名
filename = "datingTestSet.txt"
#打开并处理数据
datingDataMat, datingLabels = file2matrix(filename)
#showdatas(datingDataMat, datingLabels)
#归一化数据
normDataSet, ranges, minVals= autoNorm(datingDataMat)
#测试
datingClassTest(datingDataMat, datingLabels,normDataSet, ranges, minVals)
结果如图2.4 验证分类器运行结果所示:
图2.4 验证分类器运行结果
从图2.4验证分类器结果中可以看出,错误率是4%,这是一个想当不错的结果。我们可以改变函数datingClassTest内变量hoRatio和分类器k的值,检测错误率是否随着变量值的变化而增加。依赖于分类算法、数据集和程序设置,分类器的输出结果可能有很大的不同。
这个例子表明我们可以正确地预测分类,错误率仅仅4%。海伦完全可以输入未知对象的属性信息,有分类软件来帮助她判定某一对象的可交往程度:讨厌、一般喜欢、非常喜欢。
2.5 使用算法:构建完整可用系统
我们可以给海伦一个小段程序,通过该程序海伦会在约会网站上找到某个人并输入他的信息。程序会给出她对男方喜欢程度的预测值。
# -*- coding: UTF-8 -*-
from numpy import *
from matplotlib.font_manager import FontProperties
import matplotlib.lines as mlines
import matplotlib.pyplot as plt
import operator
"""
函数说明:kNN算法,分类器
Parameters:
inX - 用于分类的数据(测试集)
dataSet - 用于训练的数据(训练集)
labes - 分类标签
k - kNN算法参数,选择距离最小的k个点
Returns:
sortedClassCount[0][0] - 分类结果
"""
def classify0(inX, dataSet, labels, k):
#numpy函数shape[0]返回dataSet的行数
dataSetSize = dataSet.shape[0]
#在列向量方向上重复inX共1次(横向),行向量方向上重复inX共dataSetSize次(纵向)
diffMat = tile(inX, (dataSetSize, 1)) - dataSet
#二维特征相减后平方
sqDiffMat = diffMat**2
#sum()所有元素相加,sum(0)列相加,sum(1)行相加
sqDistances = sqDiffMat.sum(axis=1)
#开方,计算出距离
distances = sqDistances**0.5
#返回distances中元素从小到大排序后的索引值
sortedDistIndices = distances.argsort()
#定一个记录类别次数的字典
classCount = {}
for i in range(k):
#取出前k个元素的类别
voteIlabel = labels[sortedDistIndices[i]]
#dict.get(key,default=None),字典的get()方法,返回指定键的值,如果值不在字典中返回默认值。
#计算类别次数
classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
#python3中用items()替换python2中的iteritems()
#key=operator.itemgetter(1)根据字典的值进行排序
#key=operator.itemgetter(0)根据字典的键进行排序
#reverse降序排序字典
sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
#返回次数最多的类别,即所要分类的类别
return sortedClassCount[0][0]
"""
函数说明:打开并解析文件,对数据进行分类:1代表不喜欢,2代表魅力一般,3代表极具魅力
Parameters:
filename - 文件名
Returns:
returnMat - 特征矩阵
classLabelVector - 分类Label向量
"""
def file2matrix(filename):
fr=open(filename) #打开文件
arrayOLines=fr.readlines() #读取文件所有内容
numberOfLines=len(arrayOLines) #得到文件行数
returnMat=zeros((numberOfLines,3)) #返回的NumPy矩阵,解析完成的数据:numberOfLines行,3列
classLabelVector=[] #返回的分类标签向量
index=0 #行的索引值
for line in arrayOLines:
line=line.strip() #strip(rm),当rm空时,默认删除空白符(包括'\n','\r','\t',' ')
listFromLine=line.split('\t') #使用line.split(str="",num=string,cout(str))将字符串根据'\t'分隔符进行切片。
returnMat[index,:]=listFromLine[0:3] #将数据前三列提取出来,存放到returnMat的NumPy矩阵中,也就是特征矩阵
#根据文本中标记的喜欢的程度进行分类,1代表不喜欢,2代表魅力一般,3代表极具魅力
#classLabelVector.append(int(listFromLine[-1]))
if listFromLine[-1] == 'didntLike':
classLabelVector.append(1)
elif listFromLine[-1] == 'smallDoses':
classLabelVector.append(2)
elif listFromLine[-1] == 'largeDoses':
classLabelVector.append(3)
index+=1
return returnMat,classLabelVector
"""
函数说明:对数据进行归一化
Parameters:
dataSet - 特征矩阵
Returns:
normDataSet - 归一化后的特征矩阵
ranges - 数据范围
minVals - 数据最小值
"""
def autoNorm(dataSet):
#设置数据的最大,最小值
minVals=dataSet.min(0)
maxVals=dataSet.max(0)
ranges=maxVals-minVals #最大值和最小值的范围
normDataSet=zeros(shape(dataSet)) #shape(dataSet)返回dataSet的矩阵行列数
m=dataSet.shape[0] #返回dataSet的行数
normDataSet=dataSet-tile(minVals,(m,1)) #原始值减去最小值
normDataSet=normDataSet/tile(ranges,(m,1)) #除以最大和最小值的差,得到归一化数据
#返回归一化数据结果,数据范围,最小值
return normDataSet,ranges,minVals
"""
函数说明:通过输入一个人的三维特征,进行分类输出
Parameters:
datingDataMat - 特征矩阵
datingLabels - 分类Label向量
normMat - 归一化后的特征矩阵
ranges - 数据范围
minVals - 数据最小值
Returns:
无
"""
def classifyPerson(datingDataMat, datingLabels,normMat, ranges, minVals):
#输出结果
resultList = ['讨厌','有些喜欢','非常喜欢']
#三维特征用户输入
precentTats = float(input("玩视频游戏所耗时间百分比:"))
ffMiles = float(input("每年获得的飞行常客里程数:"))
iceCream = float(input("每周消费的冰激淋公升数:"))
#生成NumPy数组,测试集
inArr = array([precentTats, ffMiles, iceCream])
#测试集归一化
norminArr = (inArr - minVals) / ranges
#返回分类结果
classifierResult = classify0(norminArr, normMat, datingLabels, 3)
#打印结果
print("你可能%s这个人" % (resultList[classifierResult]))
if __name__ == '__main__':
#打开的文件名
filename = "datingTestSet.txt"
#打开并处理数据
datingDataMat, datingLabels = file2matrix(filename)
#可视化数据
#showdatas(datingDataMat, datingLabels)
#归一化数据
normDataSet, ranges, minVals= autoNorm(datingDataMat)
#测试
#datingClassTest(datingDataMat, datingLabels,normDataSet, ranges, minVals)
#完整系统预测
classifyPerson(datingDataMat, datingLabels,normDataSet, ranges, minVals)
在cmd中,运行程序,并输入数据(10,10000,0.5),预测结果是”你可能有些喜欢这个人”,也就是这个人魅力一般。一共有三个档次:讨厌、有些喜欢、非常喜欢,对应着不喜欢的人、魅力一般的人、极具魅力的人。结果如图2.5 预测结果所示:
图2.5预测结果
三 k-近邻算法实战之手写识别系统
为了简单起见,这里构造的系统只能识别数字0到9,对于需要识别的数字已经使用图形处理软件,处理成具有相同的色彩和大小:宽高是32像素x32像素。尽管采用本文格式存储图像不能有效地利用内存空间,但是为了方便理解,我们将图片转换为文本格式,数字的文本格式如图3.1 手写数字数据集所示:
图3.1 手写数字数据集
在手写识别系统上使用k-近邻算法的一般流程:
1. 收集数据:提供文本文件。
2. 准备数据:编写函数img2vector(),将图像格式转换为分类器使用的向量格式。
3. 分析数据:在python的命令提示符中检查数据,确保它符合要求。
4. 训练算法:此步骤不适用k-近邻算法;
5. 测试算法:编写函数使用提供的部分数据集作为测试样本,测试样本与非测试样本得区别在于测试样本是已经完成分类的数据,如果预测分类与实际类别不同,则标记为一个错误。
6. 使用算法:构建完整的应用程序,从图像中提取数字,并完成数字识别,美国的邮件分拣系统就是一个实际运行的类似系统。
3.1 准备数据:将图像转化为测试向量
手写识别系统数据:digits下载
目录trainingDigits中包含大约2000个例子,每个数字大约有200个样本;在目录testDigits中包含大约900个测试数据。我们使用目录trainingDigits中的数据训练分类器,使用testDigits中的数据测试分类器的效果。为了使用前面两个例子的分类器,我们必须把图像格式化处理为一个向量。我们把32x32的二进制图像矩阵转化为1x1024的向量,这样就可以处理数字图像信息了。
新建k-NNHandwriting.py文件,创建img2vector()方法实现格式转换,创建classify0()分类器,具体实现代码如下:
import numpy as np
import operator
from os import listdir
'''
函数说明:kNN算法,分类器
Parameters:
inX:用于分类的数据(测试集)
dataSet:用于训练的数据(训练集)
labels:分类标签
k:kNN算法参数,选择距离最小的k个点
'''
def classify0(inX,dataSet,labels,k):
#numpy函数shape[0]返回dataSet的行数
dataSetSize=dataSet.shape[0]
#在列向量方向上重复inX共1次(横向),行向量上重复inX共dataSetSize次(纵向)
diffMat=np.tile(inX,(dataSetSize,1))-dataSet
#二维特征相减后平方
sqDiffMat=diffMat**2
#sum()所有的元素相加,sun(0)表示列相加,sum(1)表示行相加
sqDistances=sqDiffMat.sum(axis=1)
#开方,计算出距离值
distances=sqDistances**0.5
#排序,并返回distances中元素从小到大排序后的索引值
sortedDistIndices=distances.argsort()
#定义一个记录类别次数的字典
classCount={}
for i in range(k):
#取出前k个元素类别
voteILabel= labels[sortedDistIndices[i]]
#计算类别次数
#dict.get(key,default=None),字典的get()方法,返回指定键的值,如果值不在字典中返回默认值。
classCount[voteILabel]=classCount.get(voteILabel,0)+1
#python3中用items()替换python2中的iteritems()
#key=operator.itemgetter(0)根据字典的键进行排序,key=operator.itemgetter(1)根据字典的值进行排序
#reverse降序排序字典
sortedDistIndices=sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
#返回次数最多的类别,即所要分类的类别
return sortedDistIndices[0][0]
'''
函数说明:将32x32的二进制图像转换为1x1024向量
Parameters:
filename:文件名
Returns:
returnVect:返回二进制图像的1x1024向量
'''
def img2vector(filename):
#创建1x1024零向量
returnVect=np.zeros((1,1024))
#打开文件
fr=open(filename)
#按行读取
for i in range(32):
#读一行数据
lineStr = fr.readline()
#每一行的前32个元素依次添加到returnVect中
for j in range(32):
returnVect[0,32*i+j]=int (lineStr[j])
#返回转换后的1x1024向量
return returnVect
if __name__ == '__main__':
#打开的文件名
filename = "digits/trainingDigits/0_13.txt"
testVector=img2vector(filename)
print (testVector[0,0:31])
运行结果如图3.2 图像转换为文本转化结果 所示:
图3.2 图像转换为文本转化结果
3.2 测试算法:使用k-近邻算法识别手写数字
已经将数据处理成分类器可以识别的格式,这里将数据输入到分类器,检测分类器的执行效果。在文件k-NNHandwriting.py中添加函数handwritingClassTest(),测试分类器。具体实现代码如下:
import numpy as np
import operator
from os import listdir
'''
函数说明:kNN算法,分类器
Parameters:
inX:用于分类的数据(测试集)
dataSet:用于训练的数据(训练集)
labels:分类标签
k:kNN算法参数,选择距离最小的k个点
'''
def classify0(inX,dataSet,labels,k):
#numpy函数shape[0]返回dataSet的行数
dataSetSize=dataSet.shape[0]
#在列向量方向上重复inX共1次(横向),行向量上重复inX共dataSetSize次(纵向)
diffMat=np.tile(inX,(dataSetSize,1))-dataSet
#二维特征相减后平方
sqDiffMat=diffMat**2
#sum()所有的元素相加,sun(0)表示列相加,sum(1)表示行相加
sqDistances=sqDiffMat.sum(axis=1)
#开方,计算出距离值
distances=sqDistances**0.5
#排序,并返回distances中元素从小到大排序后的索引值
sortedDistIndices=distances.argsort()
#定义一个记录类别次数的字典
classCount={}
for i in range(k):
#取出前k个元素类别
voteILabel= labels[sortedDistIndices[i]]
#计算类别次数
#dict.get(key,default=None),字典的get()方法,返回指定键的值,如果值不在字典中返回默认值。
classCount[voteILabel]=classCount.get(voteILabel,0)+1
#python3中用items()替换python2中的iteritems()
#key=operator.itemgetter(0)根据字典的键进行排序,key=operator.itemgetter(1)根据字典的值进行排序
#reverse降序排序字典
sortedDistIndices=sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
#返回次数最多的类别,即所要分类的类别
return sortedDistIndices[0][0]
'''
函数说明:将32x32的二进制图像转换为1x1024向量
Parameters:
filename:文件名
Returns:
returnVect:返回二进制图像的1x1024向量
'''
def img2vector(filename):
#创建1x1024零向量
returnVect=np.zeros((1,1024))
#打开文件
fr=open(filename)
#按行读取
for i in range(32):
#读一行数据
lineStr = fr.readline()
#每一行的前32个元素依次添加到returnVect中
for j in range(32):
returnVect[0,32*i+j]=int (lineStr[j])
#返回转换后的1x1024向量
return returnVect
"""
函数说明:手写数字分类测试
Parameters:
无
Returns:
无
"""
def handwritingClassTest():
#测试集的Labels
hwLabels = []
#返回trainingDigits目录下的文件名
trainingFileList = listdir('digits/trainingDigits')
#返回文件夹下文件的个数
m = len(trainingFileList)
#初始化训练的Mat矩阵,测试集
trainingMat = np.zeros((m, 1024))
#从文件名中解析出训练集的类别
for i in range(m):
#获得文件的名字
fileNameStr = trainingFileList[i]
#获得分类的数字
classNumber = int(fileNameStr.split('_')[0])
#将获得的类别添加到hwLabels中
hwLabels.append(classNumber)
#将每一个文件的1x1024数据存储到trainingMat矩阵中
trainingMat[i,:] = img2vector('digits/trainingDigits/%s' % (fileNameStr))
#返回testDigits目录下的文件名
testFileList = listdir('digits/testDigits')
#错误检测计数
errorCount = 0.0
#测试数据的数量
mTest = len(testFileList)
#从文件中解析出测试集的类别并进行分类测试
for i in range(mTest):
#获得文件的名字
fileNameStr = testFileList[i]
#获得分类的数字
classNumber = int(fileNameStr.split('_')[0])
#获得测试集的1x1024向量,用于训练
vectorUnderTest = img2vector('digits/testDigits/%s' % (fileNameStr))
#获得预测结果
classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3)
print("分类返回结果为%d\t真实结果为%d" % (classifierResult, classNumber))
if(classifierResult != classNumber):
errorCount += 1.0
print("总共错了%d个数据\n错误率为%f%%" % (errorCount, errorCount/mTest))
if __name__ == '__main__':
#打开的文件名
#filename = "digits/trainingDigits/0_13.txt"
#testVector=img2vector(filename)
#print (testVector[0,0:31])
#测试
handwritingClassTest()
测试运行结果如图 3.3 测试运行结果所示:
图3.3 测试运行结果
k-近邻算法识别手写数字数据集,错误率为0.01%。改变变量k的值、修改函数handwritingClassTest随机选取样本、改变训练样本的数目,都会对k-近邻算法的错误率产生影响。
四 sklearn手写数字识别
4.1 Sklearn实现k-近邻算法简介
图4.1
使用sklearn.neighbors.KNeighborsClassifier就可以是实现上小结,我们实现的k-近邻算法。KNeighborsClassifier函数一共有8个参数,如图4.2 KNeighborsClassifier所示:
图4.2 KNeighborsClassifier
KNneighborsClassifier参数说明:
- n_neighbors:默认为5,就是k-NN的k的值,选取最近的k个点。
- weights:默认是uniform,参数可以是uniform、distance,也可以是用户自己定义的函数。uniform是均等的权重,就说所有的邻近点的权重都是相等的。distance是不均等的权重,距离近的点比距离远的点的影响大。用户自定义的函数,接收距离的数组,返回一组维数相同的权重。
- algorithm:快速k近邻搜索算法,默认参数为auto,可以理解为算法自己决定合适的搜索算法。除此之外,用户也可以自己指定搜索算法ball_tree、kd_tree、brute方法进行搜索,brute是蛮力搜索,也就是线性扫描,当训练集很大时,计算非常耗时。kd_tree,构造kd树存储数据以便对其进行快速检索的树形数据结构,kd树也就是数据结构中的二叉树。以中值切分构造的树,每个结点是一个超矩形,在维数小于20时效率高。ball tree是为了克服kd树高纬失效而发明的,其构造过程是以质心C和半径r分割样本空间,每个节点是一个超球体。
- leaf_size:默认是30,这个是构造的kd树和ball树的大小。这个值的设置会影响树构建的速度和搜索速度,同样也影响着存储树所需的内存大小。需要根据问题的性质选择最优的大小。
- metric:用于距离度量,默认度量是minkowski,也就是p=2的欧氏距离(欧几里德度量)。
- p:距离度量公式。在上小结,我们使用欧氏距离公式进行距离度量。除此之外,还有其他的度量方法,例如曼哈顿距离。这个参数默认为2,也就是默认使用欧式距离公式进行距离度量。也可以设置为1,使用曼哈顿距离公式进行距离度量。
- metric_params:距离公式的其他关键参数,这个可以不管,使用默认的None即可。
- n_jobs:并行处理设置。默认为1,临近点搜索并行工作数。如果为-1,那么CPU的所有cores都用于并行工作。
4.2 Sklearn实战
我们知道数字图片是32x32的二进制图像,为了方便计算,我们可以将32x32的二进制图像转换为1x1024的向量。对于sklearn的KNeighborsClassifier输入可以是矩阵,不用一定转换为向量,不过为了跟自己写的k-近邻算法分类器对应上,这里也做了向量化处理。然后构建kNN分类器,利用分类器做预测。创建kNN_Sklearn.py文件,编写代码如下:
# -*- coding: UTF-8 -*-
import numpy as np
import operator
from os import listdir
from sklearn.neighbors import KNeighborsClassifier as kNN
"""
函数说明:将32x32的二进制图像转换为1x1024向量。
Parameters:
filename - 文件名
Returns:
returnVect - 返回的二进制图像的1x1024向量
"""
def img2vector(filename):
#创建1x1024零向量
returnVect = np.zeros((1, 1024))
#打开文件
fr = open(filename)
#按行读取
for i in range(32):
#读一行数据
lineStr = fr.readline()
#每一行的前32个元素依次添加到returnVect中
for j in range(32):
returnVect[0, 32*i+j] = int(lineStr[j])
#返回转换后的1x1024向量
return returnVect
"""
函数说明:手写数字分类测试
Parameters:
无
Returns:
无
"""
def handwritingClassTest():
#测试集的Labels
hwLabels = []
#返回trainingDigits目录下的文件名
trainingFileList = listdir('digits/trainingDigits')
#返回文件夹下文件的个数
m = len(trainingFileList)
#初始化训练的Mat矩阵,测试集
trainingMat = np.zeros((m, 1024))
#从文件名中解析出训练集的类别
for i in range(m):
#获得文件的名字
fileNameStr = trainingFileList[i]
#获得分类的数字
classNumber = int(fileNameStr.split('_')[0])
#将获得的类别添加到hwLabels中
hwLabels.append(classNumber)
#将每一个文件的1x1024数据存储到trainingMat矩阵中
trainingMat[i,:] = img2vector('digits/trainingDigits/%s' % (fileNameStr))
#构建kNN分类器
neigh = kNN(n_neighbors = 3, algorithm = 'auto')
#拟合模型, trainingMat为测试矩阵,hwLabels为对应的标签
neigh.fit(trainingMat, hwLabels)
#返回testDigits目录下的文件列表
testFileList = listdir('digits/testDigits')
#错误检测计数
errorCount = 0.0
#测试数据的数量
mTest = len(testFileList)
#从文件中解析出测试集的类别并进行分类测试
for i in range(mTest):
#获得文件的名字
fileNameStr = testFileList[i]
#获得分类的数字
classNumber = int(fileNameStr.split('_')[0])
#获得测试集的1x1024向量,用于训练
vectorUnderTest = img2vector('digits/testDigits/%s' % (fileNameStr))
#获得预测结果
# classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3)
classifierResult = neigh.predict(vectorUnderTest)
print("分类返回结果为%d\t真实结果为%d" % (classifierResult, classNumber))
if(classifierResult != classNumber):
errorCount += 1.0
print("总共错了%d个数据\n错误率为%f%%" % (errorCount, errorCount/mTest * 100))
"""
函数说明:main函数
Parameters:
无
Returns:
无
"""
if __name__ == '__main__':
handwritingClassTest()
运行结果如图 4.3:
图4.3 运行结果
五 总结
k-近邻算法是分类数据最简单有效的算法,k-近邻算法是基于实例的学习,使用算法是我们必须有接近实际数据的训练样本数据。k-近邻算法必须保存全部数据集,如果训练数据集很大,必须使用大量的存储空间。此外由于必须对数据集中的每个数据计算距离值,实际使用的时间可能非常耗时。
k-近邻算法的另一个缺陷是他无法给出任何数据的基础结构信息,因此我们也无法知道平均实例样本和典型实例样本具有什么特征。