K-近邻算法详细介绍

这篇博客详细介绍了K-近邻算法的概念、应用和实现,通过抽象和现实例子进行解释,并在UCI蘑菇数据集上进行实验,探讨了距离度量(如欧式距离和曼哈顿距离)、K值选择对算法效果的影响,以及多数表决规则在分类决策中的作用。实验结果显示,K值在1到20之间时,准确率较高,曼哈顿距离可能获得比欧式距离更高的准确率。
摘要由CSDN通过智能技术生成

刚开始学习机器学习,在做K-近邻算法时,看很多关于这方面的资料,然后总结了一下。有不对的地方,希望大家批评指正。


概念定义

K-近邻算法:
    第一句:给定一个带标签的样本数据集合(称为:训练集)
    第二句:当输入没有标签的新数据(新数据:测试集中的数据)后
    第三句:将新数据的每个特征与训练集中所有数据对应的特征进行相似性比较
    第四句:选择训练集中前K个最相似(最近邻)的数据,提取前K个最相似的数据的分类标签,(说明:通常K是不大于20的整数)。
    第五句:选择这K个最相似数据中出现次数最多的类别标签,作为新数据的类别标签


1.1、抽象举例解释

例子1:图形判断

解释:第一句:给定一个带标签的样本数据集合(称为:训练集)
           如下图所示:红色三角形和蓝色正方形组成的集合称为训练集,标签只有三角形,正方形。

解释:第二句:当输入没有标签的新数据(新数据:测试集中的数据)后。
           图中,中间的绿色图形表示的是没有标签的新数据


第三句:将新数据的每个特征与训练集中所有数据对应的特征进行相似性比较
这里采用欧式距离进行比较,即:比较两点间的距离的大小。距离越大,相似性就越小;距离越小,相似性就越大。(遗留问题1:相似性比较方法有哪些?)

    第四句:选择训练集中前K个最相似(距离最小)的数据,提取训前K个最相似的数据的分类标签,(遗留问题2:k的值设定多少才合适)
    第五句:选择这K个最相似数据中出现次数最多的类别标签(多数表决规则),作为新数据的类别标签(遗留问题3:多数表决规则怎样通过数学来解释)

1.2、现实举例解释

例子:电影类型评估

解释1:第一句:给定一个带标签的样本数据集合(称为:训练集)

电影名称

打斗镜头

接吻镜头

电影类型

《泰坦尼克号》

3

104

爱情片

《夏洛特烦恼》

2

100

爱情片

《从你的全世界路过》

1

81

爱情片

《战狼2

101

10

动作片

《变形金刚5

99

5

动作片

《猩球崛起3

98

2

动作片


解释2:第二句:当输入没有标签的新数据(新数据:测试集中的数据)后


  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值