程序清单2-4 和2-5大部分都是前边用过的,如果前边学得好,程序理解起来就会非常简单。
#程序清单2-4 分类器针对约会网站的测试代码
def datingClassTest():
hoRatio = 0.10#这个值之后要用到,即选取整体数据的10%用于测试分类器
datingDataMat,datingLabels = file2matrix('F:\\机器学习\\MLiA_SourceCode\\machinelearninginaction\\Ch02\\datingTestSet2.txt')#对原始数据处理,得到分类器可以处理的形式
normMat,ranges,minVals = autoNorm(datingDataMat)#归一化数值后返回三个值,分别为归一化后的数值,每一列中最大值与最小值的差值,每一列的最小值
m = normMat.shape[0]#得到normMat矩阵的行数
numTestVecs = int(m*hoRatio)
errorCount = 0.0#这个变量为分诶错误次数
for i in range(numTestVecs):
classifierResult = classify0(normMat[i,:],normMat[numTestVecs:m,:],\
datingLabels[numTestVecs:m],3) #对测试数据进行分类
print('the classifier came back with:%d,the real answer is:%d' %(classifierResult,datingLabels[i]))
if (classifierResult != datingLabels[i]):errorCount += 1.0#当测试的数据分类不正确时,errorCount+1
print('the total error rate is : %f' %(errorCount/float(numTestVecs)))#打印出分类器的错误率
#程序清单2-5 约会网站预测函数
def classfyPerson():#这是真正与用户交互的程序,按照自己的习惯对原书的英文问答改为了中文,代码都是之前介绍过的,不重复做解释了,
#唯一需要注意的是在python3.0中print与python2.0有较大差别,raw_input()不再适用
resultList = ['讨厌','一般喜欢','非常喜欢']
percentTats = float(input('打视频游戏所占时间比:'))
ffMiles = float(input('飞行常客里程数:'))
iceCream = float(input('每周消耗的冰淇淋公升数:'))
datingDataMat,datingLabels = file2matrix('F:\\机器学习\\MLiA_SourceCode\\machinelearninginaction\\Ch02\\datingTestSet2.txt')
normMat,ranges,minVals = autoNorm(datingDataMat)
inArr = array([ffMiles,percentTats,iceCream])
classifierResult = classify0((inArr-minVals)/ranges,normMat,datingLabels,3)
print('你是否会喜欢这个人:%s' %resultList[classifierResult-1])
看一下运行结果
>>> k.classfyPerson()
打视频游戏所占时间比:10
飞行常客里程数:10000
每周消耗的冰淇淋公升数:0.5
你是否会喜欢这个人:一般喜欢
OK,到这里就成功的在数据上建立了分类器