【机器学习实战 Task1】（KNN）k近邻算法的应用_k近邻算法应用领域相关代码(3)

最新推荐文章于 2024-05-21 21:30:26 发布

2401_84138986

最新推荐文章于 2024-05-21 21:30:26 发布

阅读量312

点赞数 25

分类专栏：程序员文章标签：机器学习近邻算法人工智能

本文链接：https://blog.csdn.net/2401_84138986/article/details/138362887

版权

程序员专栏收录该内容

148 篇文章 0 订阅

订阅专栏

给定一个样本的集合，这里称为训练集，并且样本中每个数据都包含标签。对于新输入的一个不包含标签的数据，通过计算这个新的数据与每一个样本之间的距离，选取前k个，通常k小于20，以k个剧里最近的数据的标签中出现次数最多的标签作为该新加入的数据标签。

（3）k近邻算法的案例

当前统计了6部电影的接吻和打斗的镜头数，假设有一部未看过的电影，如何确定它是爱情片还是动作片呢？


电影名称	打斗镜头	接吻镜头	电影类型
California Man	3	104	爱情片
He‘s Not Really into Dudes	2	100	爱情片
Beautiful Woman	1	81	爱情片
Kevin Longblade	101	10	动作片
Robo Slayer 3000	99	5	动作片
Amped II	98	2	动作片
？	18	90	未知

根据knn算法的原理，我们可以求出，未知电影与每部电影之间的距离(这里采用欧式距离）

以California Man为例

>>>((3-18)**2+(104-90)**2)**(1/2)
20.518284528683193


电影名称	与未知i电影之间的距离
California Man	20.5
He‘s Not Really into Dudes	18.7
Beautiful Woman	19.2
Kevin Longblade	115.3
Robo Slayer 3000	117.4
Amped II	118.9

因此我们可以找到样本中前k个距离最近的电影，假设k=3，前三部电影均为爱情片，因此我们判定未知电影属于爱情片。

1.2 用python代码实现k近邻算法

（1）计算已知类别数据集中的每个点与当前点之间的距离

（2）按照距离递增次序排序

（3）选取与当前点距离最小的k个点

（4）确定前k个点所在类别出现的频率

（5）返回前k个点出现频率最高的类别作为当前点的预测分类

import numpy as np
import operator

def classify0(inX, dataSet, labels, k):
    dataSetSize = dataSet.shape[0]
    diffMat = np.tile(inX, (dataSetSize,1)) - dataSet
    sqDiffMat = diffMat**2
    sqDistances = sqDiffMat.sum(axis=1)
    distances = sqDistances**0.5
    sortedDistIndicies = distances.argsort()     
    classCount={}          
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]

最后

🍅 硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。
🍅 技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。
🍅 面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。
🍅 知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里无偿获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

2401_84138986

关注

25
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
【机器学习实战 Task1】（KNN）k近邻算法的应用_k近邻算法应用领域相关代码(3)

🍅 硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。🍅 技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。🍅 面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。🍅 知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。
复制链接

扫一扫