机器学习：K-近邻算法（一）判断电影类型

晶哥哥&

已于 2022-05-06 11:00:17 修改

阅读量1.7k

点赞数

文章标签：机器学习深度学习人工智能近邻算法 python

于 2022-05-02 11:37:15 首次发布

本文链接：https://blog.csdn.net/RFIDLJJ/article/details/124432930

版权

一、KNN

二、距离度量

三、实战项目（判断电影类型）：主要练习k-近邻算法的实现

一、KNN

K-近邻算法用作基本分类与回归，其中k是指选择样本集中前k个最相似的数据集，最后从k个最相似的数据集中选出出现次数最多的分类。

二、距离度量

前k个最相似的数据集，这个最相似指的是特征最相似，也就是说k-近邻算法是根据特征比较，得到特征最相似的数据的分类标签，然后找出出现频率最高的标签。那么如何做到特征比较呢？其实就是计算一个样本与另一个样本之间的距离，这个距离就是利用距离公式计算来的。下图第一个公式是两个特征时使用的，第二个是两个特征以上时使用的。

三、实战项目（判断电影类型）：主要练习k-近邻算法的实现

电影名称	打斗镜头	接吻镜头	电影类型
电影1	1	101	爱情片
电影2	5	89	爱情片
电影3	108	5	动作片
电影4	115	8	动作片

这个项目中有两个特征：打斗镜头和接吻镜头

1.准备数据集

import numpy as np

'''
主要就是获取特征矩阵和标签列表
'''
def CreatdataSet():
    #创建特征矩阵
    dataSet=np.array([[1,101],[5,89],[108,5],[115,8]])
    #创建标签
    labels=['爱情片','爱情片','动作片','动作片']
    return dataSet,labels


if __name__=='__main__':
    dataSet,labels=CreatdataSet()
    print(dataSet)
    print(labels)

执行的结果是：

2.k-近邻算法

(1)利用距离公式写算法：

'''
参数说明：
inX--指测试集
dataSet--指训练集
labels--指分类标签
k--指找前k个最相似数据

返回值：返回前k个最相似中出现次数最多的标签
'''

def classify0(inX,dataSet,labels,k):
    #获取训练集数据集的行数
    dataSetsize=dataSet.shape[0]
    #训练集数据（矩阵）减去测试集数据（一维）
    diffMat=np.tile(inX,(dataSetsize,1))-dataSet
    #将减去的后的数据平方
    double_diffMat=diffMat**2
    #将平方后的数据相加
    sum_data=double_diffMat.sum(1)
    #相加后再开平方
    result_data=sum_data*0.5
    #返回result_data中从小到大排序的索引值
    sortedDistIndices=result_data.argsort()
    classCount={}
    for i in range(k):
        #提取前k个元素的类别，通过排好序的索引值
        voteIlabel=labels[sortedDistIndices[i]]
        #计算每个类别的次数
        classCount[voteIlable]=classCount.get(voteIlabel,0)+1
        #将字典排序，按字典的值排序：key=operator.itemgetter(1)
        #按字典的键记性排序：key=operator.itemgetter(0)
        sortedClassCount=sotred(classCount.items(),
        key=operator.itemgetter(1),reverse=True)
        #返回次数最多的类别
        return sortedClassCount[0][0]