【机器学习实战 Task1】（KNN）k近邻算法的应用

最新推荐文章于 2023-09-21 17:53:19 发布

置顶

VIP文章 202xxx

最新推荐文章于 2023-09-21 17:53:19 发布

阅读量8.3k

点赞数 100

分类专栏：机器学习文章标签：算法机器学习手写数字识别 k近邻算法机器学习实战

本文链接：https://blog.csdn.net/weixin_37474682/article/details/120387542

版权

1 背景

1.1 k近邻算法的概述

（1）k近邻算法的简介

k-近邻算法是属于一个非常有效且易于掌握的机器学习算法，简单的说就是采用测量不同特征值之间距离的方法对数据进行分类的一个算法。

（2）k近邻算法的工作原理

给定一个样本的集合，这里称为训练集，并且样本中每个数据都包含标签。对于新输入的一个不包含标签的数据，通过计算这个新的数据与每一个样本之间的距离，选取前k个，通常k小于20，以k个剧里最近的数据的标签中出现次数最多的标签作为该新加入的数据标签。

（3）k近邻算法的案例

当前统计了6部电影的接吻和打斗的镜头数，假设有一部未看过的电影，如何确定它是爱情片还是动作片呢？

电影名称	打斗镜头	接吻镜头	电影类型
California Man	3	104	爱情片
He‘s Not Really into Dudes	2	100	爱情片
Beautiful Woman	1	81	爱情片
Kevin Longblade	101	10	动作片
Robo Slayer 3000	99	5	动作片
Amped II	98	2	动作片
？	18	90	未知

根据knn算法的原理，我们可以求出，未知电影与每部电影之间的距离(这里采用欧式距离）

以California Man为例

>>>((3-18)**2+(104-90)**2)**(1/2)
20.518284528683193

电影名称	与未知i电影之间的距离
California Man	20.5
He‘s Not Really into Dudes	18.7
Beautiful Woman	19.2
Kevin Longblade	115.3
Robo Slayer 3000	117.4
Amped II	118.9

因此我们可以找到样本中前k个距离最近的电影，假设k=3，前三部电影均为爱情片，因此我们判定未知电影属于爱情片。

1.2 用python代码实现k近邻算法

（1）计算已知类别数据集中的每个点与当前点之间的距离

（2）按照距离递增次序排序

（3）选取与当前点距离最小的k个点

（4）确定前k个点所在类别出现的频率

（5）返回前k个点出现频率最高的类别作为当前点的预测分类

import numpy as np
import operator

def classify0(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]
    diffMat = np.tile(inX, (dataSetSize,1)) - dataSet
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis=1)
    distances = sqDistances**0.5
    sortedDistIndicies = distances.argsort()     
    classCount={}          
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]

（6）案例

>>>group = np.array([[1, 1.1],
...                 [1, 1],
...                 [0, 0],
...                 [0, 0.1]])
>>>labels = ['A', 'A', 'B', 'B']
>>>classify0([0,0], group, labels, 3)
'B'

1.3 如何测试分类器

正常来说为了测试分类器给出来的分类效果，我们通常采用计算分类器的错误率对分类器的效果进行评判。也就是采用分类出错的次数除以分类的总次数。完美的分类器的错误率为0，而最差的分类器的错误率则为1。

2 使用kNN算法改进约会网站的匹配效果

2.1 案例介绍

朋友海伦在使用约会软件寻找约会对象的时候，尽管网站会推荐不同的人选，但并不是每一个人她都喜欢，具体可以分为以下三类：不喜欢的人，魅力一般的人，极具魅力的人。尽管发现了以上的规律，但是海伦依旧无法将网站推荐的人归到恰当的类别，因此海伦希望我们的分类软件能更好的帮助她将匹配到的对象分配到确切的分类中。

2.2 数据的准备

以下提供两种下载数据集的渠道：

最低0.47元/天解锁文章

202xxx

关注

100
点赞
踩
72

收藏

觉得还不错? 一键收藏
打赏
100
评论
【机器学习实战 Task1】（KNN）k近邻算法的应用

1 背景1.1 k近邻算法的概述（1）k近邻算法的简介k-近邻算法是属于一个非常有效且易于掌握的机器学习算法，简单的说就是采用测量不同特征值之间距离的方法对数据进行分类的一个算法。（2）k近邻算法的工作原理给定一个样本的集合，这里称为训练集，并且样本中每个数据都包含标签。对于新输入的一个不包含标签的数据，通过计算这个新的数据与每一个样本之间的距离，选取前k个，通常k小于20，以k个剧里最近的数据的标签中出现次数最多的标签作为该新加入的数据标签。（3）k近邻算法的案例当前统计了6部
复制链接

扫一扫