from numpy import *
import operator
import matplotlib.pyplot as plt
import operator
from matplotlib.font_manager import FontProperties
import matplotlib.lines as mlines
def createDataSet():
# 每一个axis=1 对应一个数据集 (x,y)
group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]]) \
# labels= group.shape[0] 对应的是每个数据的类别
labels = ['A', 'A', 'B', 'B']
return group, labels
def classify0(inX, dataSet, labels, k):
dataSetSize = dataSet.shape[0]
# 以下四条语句是对距离inx中数据和dataSet中数据的距离的计算
# tile函数对象的作用就是在横向上进行复制 下面这条语句的作用是 在 axis=0的方向上复制dataSetSize次
diffMat = tile(inX, (dataSetSize, 1)) - dataSet
# 对每一个元素进行平方运算
sqDiffMat = diffMat ** 2
# 对axis=1的轴进行求和运算
sqDistances = sqDiffMat.sum(axis=1)
# 对sqDistance中的每一个元素进行开方运算
distances = sqDistances ** 0.5
# argsort()函数是把目标数组对象从小到大进行排序,最后返回每个元素的索引值
sortedDistIndicies = distances.argsort()
classCount = {}
for i in range(k):
voteIlabel = labels[sortedDistIndicies[i]]
# [语句理解](https://blog.csdn.net/weixin_42303096/article/details/80461857)
classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1
# items返回的是元组值
# [语句的理解](https://blog.csdn.net/dongtingzhizi/article/details/12068205)
sortedClassCount = sorted(classCount.items(),
key=operator.itemgetter(1), reverse=True)
return sortedClassCount[0][0]
# group, labels = createDataSet()
# print(classify0([0, 0], group, labels, 3))
# 使用K-近邻算法改进约会网站的配对效果
# file2matrix()函数的作用是把待处理的数据格式改变为分类器可以接受的格式
# 该函数的输入为文件名(字符串) ,输出为训练样本的矩阵和类标签向量
def file2matrix(filename):
fr = open(filename)
arrayOLines = fr.readlines()
numberOfLines = len(arrayOLines)
# 创建一个(numberOfLines,3)的数组
returnMat = zeros((numberOfLines, 3))
classLabelVector = []
index = 0
for line in arrayOLines:
# 去除首尾字符的空格
line = line.strip()
# 使用\t作为分隔符,进行分割
listFromLine = line.split('\t')
# : 可有可无
returnMat[index, :] = listFromLine[0:3]
if listFromLine[-1] == 'didntLike':
classLabelVector.append(1)
elif listFromLine[-1] == 'smallDoses':
classLabelVector.append(2)
else:
classLabelVector.append(3)
index += 1
return returnMat, classLabelVector
# datingDataMat, datingLabels = file2matrix('datingTestSet.txt')
# print(datingDataMat)
# print(datingLabels)
# # 分析数据使用matplotlib创建散点图
# fig = plt.figure()
# # 创建子图
# # 创建子图的形式,第一个参数是行,第二个参数是列,把当前画布分成行乘列的形式。画布上每一部分从左上角
# # 从1开始递增
# ax = fig.add_subplot(111)
# # fx=fig.add_subplot(122)
# # 第一个15.0*array(datingLabels)控制的点的尺寸,第二个控制的是颜色
# ax.scatter(datingDataMat[:, 1], datingDataMat[:, 2], 15.0 * array(datingLabels), 15.0 * array(datingLabels))
# # fx.scatter(datingDataMat[:, 1],datingDataMat[:, 2])
# plt.show()
def showData():
datingDataMat, datingLabels = file2matrix('datingTestSet.txt')
# 显示数据
font = FontProperties(fname="C:\Windows\Fonts\STXINGKA.TTF", size=14)
# axe前面必须加上figure 否则会报错
fig, axe = plt.subplots(nrows=2, ncols=2, sharex=False, sharey=False, figsize=(20, 12))
numberoflabels = len(datingLabels)
labelcolors = []
for i in datingLabels:
if i == 1:
labelcolors.append('black')
elif i == 2:
labelcolors.append('orange')
else:
labelcolors.append('blue')
axe[0][0].scatter(datingDataMat[:, 0], datingDataMat[:, 1], c=labelcolors, s=15, alpha=0.5)
axe0_title_text = axe[0][0].set_title("每年的飞行常客里程数和玩视频游戏的百分比的关系")
axe0_xlabel_text = axe[0][0].set_xlabel("每年获得的飞行常客里程数")
axe0_ylabel_text = axe[0][0].set_ylabel("玩视频游戏所耗时间的百分比")
plt.setp(axe0_title_text, color='red', size=9, FontProperties=font, weight='bold')
plt.setp(axe0_xlabel_text, color='black', size=7, FontProperties=font, weight='bold')
plt.setp(axe0_ylabel_text, color='black', size=7, FontProperties=font, weight='bold')
axe[0][1].scatter(datingDataMat[:, 0], datingDataMat[:, 2], c=labelcolors, s=15, alpha=0.5)
axe1_title_text = axe[0][1].set_title('每年的获得的飞行常客里程数和每周消费的冰淇淋公升数')
axe1_xlabel_text = axe[0][1].set_xlabel("每年获得的飞行常客里程数")
axe1_ylabel_text = axe[0][1].set_ylabel("每周消费的冰淇淋那个公升数")
plt.setp(axe1_title_text, color='red', size=9, FontProperties=font, weight='bold')
plt.setp(axe1_xlabel_text, color='black', size=9, FontProperties=font, weight='bold')
plt.setp(axe1_ylabel_text, color='black', size=9, FontProperties=font, weight='bold')
axe[1][0].scatter(datingDataMat[:, 1], datingDataMat[:, 2], c=labelcolors, s=15, alpha=0.5)
axe2_title_text = axe[1][0].set_title('玩视频游戏所耗费的时间百分比和每周消费的冰淇淋公升数的关系')
axe2_xlabel_text = axe[1][0].set_xlabel('玩视频游戏所耗费的时间百分比')
axe2_ylable_text = axe[1][0].set_ylabel('每周消费的冰淇淋公升数')
plt.setp(axe2_title_text, color='red', weight='bold', size=9, FontProperties=font)
plt.setp(axe2_xlabel_text, color='black', weight='bold', size=9, FontProperties=font)
plt.setp(axe2_ylable_text, color='black', weight='bold', size=9, FontProperties=font)
# 添加图标
didntLike = mlines.Line2D([], [], color='black', marker='.',
markersize=6, label='didntLike')
smallDoses = mlines.Line2D([], [], color='black', marker='.',
markersize=6, label='smallDoses')
LargeDoses = mlines.Line2D([], [], color='black', marker='.',
markersize=6, label='LargeDoses')
axe[0][0].legend(handles=[didntLike, smallDoses, LargeDoses])
axe[0][1].legend(handles=[didntLike, smallDoses, LargeDoses])
axe[1][0].legend(handles=[didntLike, smallDoses, LargeDoses])
plt.show()
# showData()
# 准备数据 数据的归一化处理
# 所说的最大值还是最小值都是针对于列说的 取值范围也是针对列说的。
def autoNorm(dataSet):
# 0 的作用是从列中选取最小值,而不是从行中选取最小值
minVals = dataSet.min(0)
maxVals = dataSet.max(0)
ranges = maxVals - minVals
normalDataSet = zeros(shape(dataSet))
m = dataSet.shape[0]
normDataSet = dataSet - tile(minVals, (m, 1))
normDataSet = normDataSet / tile(ranges, (m, 1))
return normDataSet, ranges, minVals
# datingDataMat, datingLabels = file2matrix('datingTestSet.txt')
# norMat, ranges, minVals = autoNorm(datingDataMat)
# print(norMat)
# print(ranges)
# print(minVals)
# 分类器针对于约会网站的测试代码
# 计算错误率
def datingClassTest():
hoRatio = 0.1
# 从文件中读取数据
datingDataMat, datingLabels = file2matrix('datingTestSet.txt')
# 对数据进行归一化处理
norMat, ranges, minVals = autoNorm(datingDataMat)
# 得到处理后数据的行
m = norMat.shape[0]
# 90%的数据用于训练,10%的数据用于测试 得到该数据集中用于测试的数据的条数
numTestVecs = int(m * hoRatio)
errorCount = 0.0
# 前numTestVecs条数据用于测试
for i in range(numTestVecs):
classifierResult = classify0(norMat[i, :], norMat[numTestVecs:m, :],
datingLabels[numTestVecs:m], 3)
# 第i条数据原来就有正确的分类,在经过分类算法后,再次得到了一个分类
print("the classifier came back with: %d, the real answer is %d"
% (classifierResult, datingLabels[i]))
if classifierResult != datingLabels[i]:
errorCount += 1
print("the total error rate is: %f" % (errorCount / float(numTestVecs)))
# datingClassTest()
def classifyPerson():
resultList = ['not at all', 'in small doses', 'in large doses']
percentTats = float(input('percentage of time spent playing video games?'))
ffMiles = float(input("frequent filer miles earned per year?"))
iceCream = float(input("liters of ice cream consumed per year?"))
# 出现了错误 如果使用datingTestSet2.txt会一直报你一点都不喜欢的错误
# 使用datingTestSet1.txt的数据集会出现正确答案
datingDataMat, datingLabels = file2matrix('datingTestSet2.txt')
norMat, ranges, minVals = autoNorm(datingDataMat)
inArr = array([ffMiles, percentTats, iceCream])
# 用于分类的数据也要经过重新处理
classifierResult = classify0((inArr - minVals) / ranges, norMat, datingLabels, 3)
print("You will probably like this person:", resultList[classifierResult - 1])
classifyPerson()
# 手写识别系统
# 32*32的图像处理成了一个向量
# 该函数创建1×1024的NumPy数组,然后打开给定的文件,循环读出文件的前32行,并将每行的头32个字符值存储在NumPy数组中,最后返回数组。
def img2vector(filename):
returnVect = zeros((1, 1024))
fr = open(filename)
for i in range(32):
lineStr = fr.readline()
for j in range(32):
returnVect[0, 32 * i + j] = int(lineStr[j])
return returnVect
# 对函数的测试 通过与原来的数据进行比对
# filename = 'testDigits/0_13.txt'
# testVector = img2vector(filename)
# print(testVector[0, 0:31])
# print(testVector[0, 32:63])
# 将数据输入到分类器中,检查分类器的执行效果
def handwritingClassTest():
hwLables = []
# 获得目录内容存储在列表当中
trainingFileList = listdir('trainingDigits')
m = len(trainingFileList)
trainingMat = zeros((m, 1024))
for i in range(m):
fileNameStr = trainingFileList[i]
# 使用这种划分的方法 的到目标数字
fileStr = fileNameStr.split('.')[0]
classNumStr = int(fileStr.split('_')[0])
# 目标数字存储在hwlabels中
hwLables.append(classNumStr)
# 把trainingDigits中所有的文件都转换成(1,1024)的向量
trainingMat[i, :] = img2vector('trainingDigits/%s' % fileNameStr)
testFileList = listdir('testDigits')
errorCount = 0.0
mTest = len(testFileList)
for i in range(mTest):
fileNameStr = testFileList[i]
fileStr = fileNameStr.split('.')[0]
classNumStr = int(fileStr.split('_')[0])
# 把当前要测试的图像文件转化成(1,1024)的可读取的向量文件
vectorUnderTest = img2vector('testDigits/%s' % fileNameStr)
classifierResult = classify0(vectorUnderTest, trainingMat, hwLables, 3)
print("the classifier came back with %d,the real answer is: %d"
% (classifierResult, classNumStr))
if (classifierResult != classNumStr): errorCount += 1.0
print("\nthe total number of errors is: %d" % errorCount)
print("\nthe total error rate is:%f" % (errorCount / float(mTest)))
handwritingClassTest()
K-近邻算法
最新推荐文章于 2023-08-13 11:31:47 发布