机器学习实验(KNN算法)

一、K-近邻算法(即KNN算法)定义与思想
        

定义
        k-近邻算法是一种基本分类和回归的方法;即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类,就把该输入实例分类到这个类中。(简单的比喻就是“少数服从多数”)。

        思想
        k-近邻算法的基本思想是基于已有的样本数据集,对新的未知样本进行预测。对于一个未知的数据样本,k-近邻算法会在已有的样本数据集中找到与样本距离最近的k个数据点,然后选择这k个数据点中出现次数最多的标签作为最后的预测结果。

二、KNN算法中常用的距离指标

欧几里得距离

它也被称为L2范数距离。欧几里得距离是我们在平面几何中最常用的距离计算方法,即两点之间的直线距离。在n维空间中,两点之间的欧几里得距离计算公式为:

d = sqrt((x2-x1)^2 + (y2-y1)^2)

曼哈顿距离

它也被称为L1范数距离。曼哈顿距离是计算两点在一个网格上的路径距离,与上述的直线距离不同,它只允许沿着网格的水平和垂直方向移动。在n维空间中,两点 之间的曼哈顿距离计算公式为:

d = |x2-x1| + |y2-y1| 

三、KNN算法具体实现案例

基本思路

本次实验我利用已有数据集对未知的喜欢程度进行预测

数据集

代码

# 通过输入一个人的三维特征,进行分类输出
def classifyPerson():
    #输出结果
    resultList = ['讨厌','有些喜欢','非常喜欢']
    #三维特征用户输入
    ffMiles = float(input("每年获得的飞行常客里程数:"))
    precentTats = float(input("玩视频游戏所耗时间百分比:"))
    iceCream = float(input("每周消费的冰激淋公升数:"))
    #打开的文件名
    filename = "datingTestSet.txt"
    #打开并处理数据
    datingDataMat, datingLabels = file2matrix(filename)
    #训练集归一化
    normMat, ranges, minVals = autoNorm(datingDataMat)
    #生成NumPy数组,测试集
    #inArr = np.array([precentTats, ffMiles, iceCream])
    inArr = np.array([ffMiles, precentTats, iceCream])
    #测试集归一化
    norminArr = (inArr - minVals) / ranges
    #返回分类结果
    classifierResult = classify0(norminArr, normMat, datingLabels, 3)
    #打印结果
    print("你可能%s这个人" % (resultList[classifierResult-1]))

输入4999

20

3结果输出非常喜欢

总结:

问题总结

1、显示gbk编码器无法解码字节其字节序列为非法多字序列

解决方法 :encoding='gb18030',errors = 'ignore'(利用ignore忽视这些特殊字符)

2、激活pytorch遇到报错usage: conda-script.py [-h] [--no-plugins] [-V] COMMAND ... conda-script.py: error: arg

解决方法:改用activate pytorch命令来激活pytorch

实验总结

1、K的取值
        knn实验中有一个关键点:k  k的取值很大程度决定了实例的准确性,其实k值是KNN算法的一个超参数,k的含义即参考K取值较小时,模型复杂度(容量)高,训练误差会减小,泛化能力减弱;K取值较大时,模型复杂度低,训练误差会增大,泛化能力有一定的提高。如何选择k值,我们可以利用交叉验证不断尝试最优值,从选取一个较小的K值开始,不断增加K的值,然后计算验证集合的方差,最终找到一个比较合适的K值。

2、KNN的局限性
         适用数据范围是数值型和标称型,因此多数情况下,knn算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法就比较容易产生误分,且在样本不平衡的时候,对稀有类别的预测准确率十分低。同时在特征量十分多的时候,knn算法的计算量就非常多了。
 

参考文献

激活pytorch遇到报错usage: conda-script.py [-h] [--no-plugins] [-V] COMMAND ... conda-script.py: error: arg-CSDN博客【Python】matplotlib库的安装和简单使用_matplotlib安装_qilei2010的博客-CSDN博客欧式距离与曼哈顿距离的区别以及曼哈顿距离的应用_曼哈顿距离和欧式距离-CSDN博客

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值