前言
在胡乱看了几本书以后,终于开始进行实战,搜了几个实战例子,终于看到一个适合我的。这次的任务要求很简单,就是区分爱情片和动作片,不过电脑没有人脑那么丰富多彩,人只需要大致看一看就可以分别,但是电脑要给数据让他学习。
假设
我们需要的数据有只有两个,就是一部电影的打斗动作数量和爱情动作数量,对于动作电影来说,打斗动作明显是多于爱情动作的,反之则相反。用一个二维数组来表示(如图)。
思路
那我们用什么办法来量化这个标准呢,一个明显的比较算法也可以勉勉强强做出来,但是就不是机器学习了,所以当然得用k值法,用距离当作评判标准,这样就可以求出前k个相近的点对应的坐标是什么电影,那么这部电影就属于哪种类型电影
开搞
inX 为测试数据
dataSst 为训练数据动作数量
labels 为训练数据对应的类型
k 为k值标准,表示前k项作为参考
代码
import numpy as np
import operator
#创建数据
def CreatData():
group = np.array([[1,101],[5,89],[102,1],[89,4]])
labels = ['爱情片','爱情片','动作片','动作片']
return group,labels
def classify(inX,dataSet,labels,k):
#numpy中*.shape[0]为*类型的行数
dataSetSize = dataSet.shape[0]
#创建一个格式和dataSet的数组相减
diffMat = np.tile(inX,(dataSetSize,1)) - dataSet
#**为开方
sqDiffMat = diffMat**2
#.sum(1)为行求和,0为列求和
sqDistances = sqDiffMat.sum(1)
Distances = sqDistances**0.5
#对每个位置数据排序
#如[99,19,44,106]
#输出[2,1,0,3]
sortedDistIndices = Distances.argsort()
# print(sortedDistIndices)
classCount = {}
for i in range(k):
voteIlabel = labels[sortedDistIndices[i]]
classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
print(classCount)
sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
return sortedClassCount[0][0]
if __name__=='__main__':
group,labels = CreatData()
text = [99,19]
text_class = classify(text,group,labels,2)
print(text_class)
# print(labels)