K最近邻(KNN)

本文介绍了K最近邻(KNN)算法的基本概念、优缺点以及参数选择。通过实例展示了如何通过计算和使用sklearn库来实现KNN算法,包括数据预处理和分类预测过程。
摘要由CSDN通过智能技术生成

k近邻算法(k-nearest neighbor, kNN)是一种基本分类与回归方法,通过给定测试实例,基于某种距离度量方法找出训练集中与测试点最靠近的k个实例点,然后通过这k个最近邻的信息来进行预测测试实例的类别。

优点 :准确性高,对异常值和噪声有较高的容忍度。
缺点:计算量较大,对内存的需求也较大。从算法原理可以看出来,每次对一个未标记样本进行分类时,都需要全部计算一遍距离。

参数:参数k是训练集排序后距离最近的k个点,参数选择需要根据数据来决定。k值越大,模型的偏差越大,对噪声数据越不敏感,当k值很大时,可能造成模型欠拟合;k值越小,模型的方差就会越大,当k值太小,就会造成模型过拟合。

优化:k-近邻算法可以优化,其中之一就是可以增加邻近值的权重。默认情况下,在计算距离时,都是使用相同权重。实际上,我们可以针对不同的邻近指定不同的距离权重,如距离越近权重越高。这个可以通过指定算法的weights参数来实现。

如下是通过简单的样本数据实现KNN算法,通过样本的特征 年龄,体重,性别,身高,烟龄,来判断是否患病

样本数据:
手动创造的几条数据,仅供训练
数据仅供测试,无实际意义

一:通过计算实现

实现代码:

#!/usr/bin/env python
# __*__ coding: utf-8 __*__
"""
@Time   : 2019/9/24 14:18
@Software: PyCharm
@Author : Nine
@File  : test.py
@Func  : knn
"""
import pandas as pd
import numpy as np
import operator as opt


def read_data(filename):
    data = pd.read_csv(filename)
    list_data = data.values.tolist()
    array_data = np.array(list_data)
    data_set = array_data[:,:5]
    labels = array_data[:,5]
    return data_set,labels



def process_data(data_set):
    maxVals = data_set.max(axis=0)
    minVals = data_set.min(axis=0)
    
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值