1 问题引入
最近随着战狼2的口碑不断上涨,票房也屡屡创下纪录,截止目前,战狼2 的票房已经突破40亿,登顶华语票房冠军,但我想关注的不是票房,而是战狼2究竟是一部什么类型的电影,很多人可能会说,这明显是一部动作片啊,那么问题来了,为什么大部分人觉得战狼2是一部动作片,而不是爱情片、恐怖片。其实他们在回答这个问题的时候,脑海中回想的是战狼2中的各种打斗场面,这种画面占据了电影的大部分时间,他们最终判定这部影片是动作片的标准是电影里有很多动作镜头。那假如影片中打斗镜头和亲吻镜头一样多呢?它到底属于动作片还是爱情片?这就需要我们对数据进行分析了,我们引入一个简单的机器学习算法k-近邻(kNN)来解决这个问题。
2 算法概述
2.1工作原理
给定一个训练集,其中的每个数据都存在分类标签,对输入的新实例,在训练集中找出与之最相近的k个数据,统计这些数据的标签,将最多的分类标签作为新实例的分类。
2.2 k-近邻三要素
k值的选择ÿ