《机器学习实战》的学习笔记之KNN

这里是《机器学习实战》中第二章KNN的代码部分解释。

代码参考的是:https://www.bilibili.com/video/BV16t411Q7TM

主要是边看这个视频边自己查资料学习的。


KNN最常用的是欧式距离,它没有训练过程,直接就是分类

常用的向量距离度量准则:

欧式距离、曼哈顿距离、切比雪夫距离、马氏距离、巴氏距离、汉明距离、皮尔逊系数、信息熵,部分相关公式与python代码见:

https://blog.csdn.net/weixin_43330946/article/details/105032182

优点:精度高、对异常值不敏感、无数据输入假定(朴素贝叶斯需要假设样本之间独立、高斯分布)。

缺点:计算复杂度高(每一个样本都要计算)、空间复杂度高。

使用数据范围:数值型和标称型。

代码1:

已知4个样本的类别,再输入一个新的样本判断其属于哪一类:

import numpy as np
import operator

def creatDataSet():
    group = np.array([[1,101], [5,89], [100,5], [115,8]])
    labels = ['爱情片','爱情片','动作片','动作片']
    return group, labels


def classify0(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]#0表示行数
    #np.tile表示复制:在列方向上重复inX共1次,行方向上重复inX共dataSetSize次
    diffMat = np.tile(inX, (dataSetSize, 1)) - dataSet
    sqDiffMat = diffMat ** 2#特征相减后平方
    sqDistances = sqDiffMat.sum(axis=1)#sum(0)列相加,sum(1)行相加
    distances = sqDistances ** 0.5
    sortedDistIndices = distances.argsort()#返回distance中元素从小到大排序后的索引值
    #定义一个记录类别次数的字典
    classCount = {}
    for i in range(k):
        #取出前k个样本的相关索引
        voteIlable = labels[sortedDistIndices[i]]#取出第i个样本的类别
        #计算类别次数
        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1
        #对获取的类别数量进行排序
    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
    #key=operator.itemgetter(1)根据字典的值进行排序,
    #key=operator.itemgetter(0)根据字典的键进行排序,
    #reverse=True降序排序字典
    return sortedClassCount[0][0]


if __name__ == '__main__':
    group, labels = createDataSet()
    test = [101, 20]
    test_class = classify0(test , group, labels, 3)
    print(test_class)

代码2:

约会网站配对效果判定


                
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值