刚开始学习机器学习,在做K-近邻算法时,看很多关于这方面的资料,然后总结了一下。有不对的地方,希望大家批评指正。
概念定义
K-近邻算法:
第一句:给定一个带标签的样本数据集合(称为:训练集)
第二句:当输入没有标签的新数据(新数据:测试集中的数据)后
第三句:将新数据的每个特征与训练集中所有数据对应的特征进行相似性比较
第四句:选择训练集中前K个最相似(最近邻)的数据,提取前K个最相似的数据的分类标签,(说明:通常K是不大于20的整数)。
第五句:选择这K个最相似数据中出现次数最多的类别标签,作为新数据的类别标签
1.1、抽象举例解释
例子1:图形判断
解释:第一句:给定一个带标签的样本数据集合(称为:训练集)
如下图所示:红色三角形和蓝色正方形组成的集合称为训练集,标签只有三角形,正方形。
解释:第二句:当输入没有标签的新数据(新数据:测试集中的数据)后。
图中,中间的绿色图形表示的是没有标签的新数据
第三句:将新数据的每个特征与训练集中所有数据对应的特征进行相似性比较
这里采用欧式距离进行比较,即:比较两点间的距离的大小。距离越大,相似性就越小;距离越小,相似性就越大。(遗留问题1:相似性比较方法有哪些?)
第四句:选择训练集中前K个最相似(距离最小)的数据,提取训前K个最相似的数据的分类标签,(遗留问题2:k的值设定多少才合适)
第五句:选择这K个最相似数据中出现次数最多的类别标签(多数表决规则),作为新数据的类别标签(遗留问题3:多数表决规则怎样通过数学来解释)
1.2、现实举例解释
例子:电影类型评估
解释1:第一句:给定一个带标签的样本数据集合(称为:训练集)
电影名称 |
打斗镜头 |
接吻镜头 |
电影类型 |
《泰坦尼克号》 |
3 |
104 |
爱情片 |
《夏洛特烦恼》 |
2 |
100 |
爱情片 |
《从你的全世界路过》 |
1 |
81 |
爱情片 |
《战狼2》 |
101 |
10 |
动作片 |
《变形金刚5》 |
99 |
5 |
动作片 |
《猩球崛起3》 |
98 |
2 |
动作片 |
解释2:第二句:当输入没有标签的新数据(新数据:测试集中的数据)后