《机器学习实战》的学习笔记之KNN

最新推荐文章于 2021-09-28 11:17:52 发布

无宠不惊过一生

最新推荐文章于 2021-09-28 11:17:52 发布

阅读量309

点赞数 1

分类专栏：《机器学习实战》文章标签：机器学习 KNN 代码

本文链接：https://blog.csdn.net/weixin_43330946/article/details/105031906

版权

这里是《机器学习实战》中第二章KNN的代码部分解释。

代码参考的是：https://www.bilibili.com/video/BV16t411Q7TM

主要是边看这个视频边自己查资料学习的。

KNN最常用的是欧式距离，它没有训练过程，直接就是分类

常用的向量距离度量准则：

欧式距离、曼哈顿距离、切比雪夫距离、马氏距离、巴氏距离、汉明距离、皮尔逊系数、信息熵，部分相关公式与python代码见：

https://blog.csdn.net/weixin_43330946/article/details/105032182

优点：精度高、对异常值不敏感、无数据输入假定（朴素贝叶斯需要假设样本之间独立、高斯分布）。

缺点：计算复杂度高（每一个样本都要计算）、空间复杂度高。

使用数据范围：数值型和标称型。

代码1：

已知4个样本的类别，再输入一个新的样本判断其属于哪一类：

import numpy as np
import operator

def creatDataSet():
    group = np.array([[1,101], [5,89], [100,5], [115,8]])
    labels = ['爱情片','爱情片','动作片','动作片']
    return group, labels


def classify0(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]#0表示行数
    #np.tile表示复制：在列方向上重复inX共1次，行方向上重复inX共dataSetSize次
    diffMat = np.tile(inX, (dataSetSize, 1)) - dataSet
    sqDiffMat = diffMat ** 2#特征相减后平方
    sqDistances = sqDiffMat.sum(axis=1)#sum(0)列相加，sum(1)行相加
    distances = sqDistances ** 0.5
    sortedDistIndices = distances.argsort()#返回distance中元素从小到大排序后的索引值
    #定义一个记录类别次数的字典
    classCount = {}
    for i in range(k):
        #取出前k个样本的相关索引
        voteIlable = labels[sortedDistIndices[i]]#取出第i个样本的类别
        #计算类别次数
        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1
        #对获取的类别数量进行排序
    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
    #key=operator.itemgetter(1)根据字典的值进行排序，
    #key=operator.itemgetter(0)根据字典的键进行排序，
    #reverse=True降序排序字典
    return sortedClassCount[0][0]


if __name__ == '__main__':
    group, labels = createDataSet()
    test = [101, 20]
    test_class = classify0(test , group, labels, 3)
    print(test_class)

代码2：

约会网站配对效果判定

最低0.47元/天解锁文章

无宠不惊过一生

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
《机器学习实战》的学习笔记之KNN

这里是《机器学习实战》中第二章KNN的代码部分解释。KNN最常用的是欧式距离，它没有训练过程，直接就是分类常用的向量距离度量准则：欧式距离、曼哈顿距离、切比雪夫距离、马氏距离、巴氏距离、汉明距离、皮尔逊系数、信息熵，部分相关公式与python代码见：https://blog.csdn.net/weixin_43330946/article/details/105032182优点...
复制链接

扫一扫