K最近邻（KNN）

最新推荐文章于 2024-05-02 08:15:00 发布

Nineoneth

最新推荐文章于 2024-05-02 08:15:00 发布

阅读量10w+

点赞数

本文链接：https://blog.csdn.net/qq_42401024/article/details/101352774

版权

本文介绍了K最近邻（KNN）算法的基本概念、优缺点以及参数选择。通过实例展示了如何通过计算和使用sklearn库来实现KNN算法，包括数据预处理和分类预测过程。

摘要由CSDN通过智能技术生成

k近邻算法（k-nearest neighbor, kNN）是一种基本分类与回归方法，通过给定测试实例，基于某种距离度量方法找出训练集中与测试点最靠近的k个实例点，然后通过这k个最近邻的信息来进行预测测试实例的类别。

优点：准确性高，对异常值和噪声有较高的容忍度。
缺点：计算量较大，对内存的需求也较大。从算法原理可以看出来，每次对一个未标记样本进行分类时，都需要全部计算一遍距离。

参数：参数k是训练集排序后距离最近的k个点，参数选择需要根据数据来决定。k值越大，模型的偏差越大，对噪声数据越不敏感，当k值很大时，可能造成模型欠拟合；k值越小，模型的方差就会越大，当k值太小，就会造成模型过拟合。

优化：k-近邻算法可以优化，其中之一就是可以增加邻近值的权重。默认情况下，在计算距离时，都是使用相同权重。实际上，我们可以针对不同的邻近指定不同的距离权重，如距离越近权重越高。这个可以通过指定算法的weights参数来实现。

如下是通过简单的样本数据实现KNN算法，通过样本的特征年龄，体重，性别，身高，烟龄，来判断是否患病

样本数据：
手动创造的几条数据，仅供训练
数据仅供测试，无实际意义

一：通过计算实现

实现代码：

#!/usr/bin/env python
# __*__ coding: utf-8 __*__
"""
@Time   : 2019/9/24 14:18
@Software: PyCharm
@Author : Nine
@File  : test.py
@Func  : knn
"""
import pandas as pd
import numpy as np
import operator as opt


def read_data(filename):
    data = pd.read_csv(filename)
    list_data = data.values.tolist()
    array_data = np.array(list_data)
    data_set = array_data[:,:5]
    labels = array_data[:,5]
    return data_set,labels



def process_data(data_set):
    maxVals = data_set.max(axis=0)
    minVals = data_set.min(axis=0)