# -*- coding: utf-8 -*-
import numpy as np
import operator
from os import listdir
# k近邻算法实现
def classify0(inX, dataSet, labels, k):
# 得到数组的行数, 训练数据的大小
dataSetSize = dataSet.shape[0]
# 将inX这一个数据, 扩充成dataSetSize个大小一样的数据集
# 减去dataSet, 得到一个差集的数据集
diffMat = np.tile(inX, (dataSetSize, 1)) - dataSet
# 平方, 数据集各个元素分别平方
sqDiffMat = diffMat ** 2
# 每行数据求和
sqDistances = sqDiffMat.sum(axis=1)
# 开方
distances = sqDistances ** 0.5
# 排序, sortedDistIndicies为得到的索引的序的列表
sortedDistIndicies = distances.argsort()
# 字典
classCount = {}
for i in range(k):
# voteIlabel为得到的label
voteIlabel = labels[sortedDistIndicies[i]]
# 字典classCount中标签voteIlabel对应的值加一, 0代表初始值从0开始
classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1
# classCount.iteritems(): 迭代取出classCount的每个元素
# key: 需要排序的列表项
# reverse: 降序排序
sortedClassCount = sorted(classCount.iteritems(),
key=operator.itemgetter(1), reverse=True)
return sortedClassCount[0][0]
# 文件转成矩阵
def file2matrix(filename):
# 打开文件
fr = open(filename)
# 获取文件的行数
numberOfLines = len(fr.readlines())
# 创建一个行数为:numberOfLines, 列数为3,以0填充的矩阵
returnMat = np.zeros((numberOfLines,3))
classLabelVector = []
fr = open(filename)
index = 0
# 循环读取文件的每一行
for line in fr.readlines():
# 去掉每行数据的回车符
line = line.strip()
# 将每行数据, 分割成一个元素列表
listFromLine = line.split('\t')
# 将每个元素列表的前3个元素, 存到特征矩阵中
returnMat[index,:] = listFromLine[0:3]
# 将每个元素列表的最后一个元素, 存到标签向量列表中
classLabelVector.append(int(listFromLine[-1]))
# 索引自加
index += 1
# 返回: 特征矩阵, 标签列表
return returnMat,classLabelVector
returnMat,classLabelVector = file2matrix('datingTestSet2.txt')
# 数据归一化
# newValue = (oldValue - min)/ (max - min)
def autoNorm(dataSet):
# 数据中最小值和最大值
minVals = dataSet.min(0)
maxVals = dataSet.max(0)
# 区间
ranges = maxVals - minVals
# np.shape(dataSet): 返回矩阵的行数和列数
# 创建名为normDataSet的用0填充的矩阵
normDataSet = np.zeros(np.shape(dataSet))
# 矩阵的行数
m = dataSet.shape[0]
# np.tile(minVals, (m,1): 扩充一个m行1列的用minVals填充的矩阵
# (oldValue - min)
normDataSet = dataSet - np.tile(minVals, (m,1))
# (oldValue - min)/ (max - min)
normDataSet = normDataSet/np.tile(ranges, (m,1))
return normDataSet, ranges, minVals
def datingClassTest():
hoRatio = 0.5
# 从文件中获取数据
datingDataMat,datingLabels = file2matrix('datingTestSet2.txt')
# 数据归一化
normMat, ranges, minVals = autoNorm(datingDataMat)
# 数据的行数
m = normMat.shape[0]
# 测试数据的个数
numTestVecs = int(m*hoRatio)
errorCount = 0.0
for i in range(numTestVecs):
# k近邻分类的结果
classifierResult = classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3)
print "the classifier came back with: %d, the real answer is: %d" % (classifierResult, datingLabels[i])
# 对比k近邻分类的结果和真实的结果
if (classifierResult != datingLabels[i]): errorCount += 1.0
print "the total error rate is: %f" % (errorCount/float(numTestVecs))
print errorCount
datingClassTest()
k近邻 - 改进约会网站的匹配效果
最新推荐文章于 2021-10-11 01:54:36 发布