kNN算法实践

最新推荐文章于 2024-04-16 16:18:42 发布

糖甜甜甜74

最新推荐文章于 2024-04-16 16:18:42 发布

阅读量429

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/Pylady/article/details/78860846

版权

1 算法介绍

总的来说，入门的第一个机器学习算法是k-近邻算法（kNN），它的工作原理是：存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分类标签。一般来说，我们只选择样本数据集中前k个最相似的数据，这就是k-近邻算法中k的出处，通常k是不大于20的整数。最后，选择k个最相似数据中出现次数最多的分类，作为新数据的分类。

2 算法流程

k-近邻算法的伪代码如下：

对未知类别属性的数据集中的每个点依次执行以下操作：

(1) 计算已知类别数据集中的点与当前点之间的距离；

(2) 按照距离递增次序排序；

(3) 选取与当前点距离最小的k个点；

(4) 确定前k个点所在类别的出现频率；

(5) 返回前k个点出现频率最高的类别作为当前点的预测分类。

3 案例实践——使用 k-近邻算法改进约会网站的配对效果

（参考机器学习实践第二章，数据来源https://www.manning.com/books/machine-learning-in-action）

4 代码

"""
Created on Dec 10, 2017
kNN: k Nearest Neighbors
Input:      inX: vector to compare to existing dataset (1xN)
            dataSet: size m data set of known vectors (NxM)
            labels: data set labels (1xM vector)
            k: number of neighbors to use for comparison (should be an odd number)
Output:     the most popular class label
"""
import numpy as</

最低0.47元/天解锁文章

糖甜甜甜74

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
kNN算法实践

1 算法介绍总的来说，入门的第一个机器学习算法是k-近邻算法（kNN），它的工作原理是：存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分类标签。一般来说，我们只选择样本数据集中前k个最相似的数据，这就是k-
复制链接

扫一扫