k近邻算法(k-nearest neighbor, kNN)是一种基本分类与回归方法,通过给定测试实例,基于某种距离度量方法找出训练集中与测试点最靠近的k个实例点,然后通过这k个最近邻的信息来进行预测测试实例的类别。
优点 :准确性高,对异常值和噪声有较高的容忍度。
缺点:计算量较大,对内存的需求也较大。从算法原理可以看出来,每次对一个未标记样本进行分类时,都需要全部计算一遍距离。
参数:参数k是训练集排序后距离最近的k个点,参数选择需要根据数据来决定。k值越大,模型的偏差越大,对噪声数据越不敏感,当k值很大时,可能造成模型欠拟合;k值越小,模型的方差就会越大,当k值太小,就会造成模型过拟合。
优化:k-近邻算法可以优化,其中之一就是可以增加邻近值的权重。默认情况下,在计算距离时,都是使用相同权重。实际上,我们可以针对不同的邻近指定不同的距离权重,如距离越近权重越高。这个可以通过指定算法的weights参数来实现。
如下是通过简单的样本数据实现KNN算法,通过样本的特征 年龄,体重,性别,身高,烟龄,来判断是否患病
样本数据:
数据仅供测试,无实际意义
一:通过计算实现
实现代码:
#!/usr/bin/env python
# __*__ coding: utf-8 __*__
"""
@Time : 2019/9/24 14:18
@Software: PyCharm
@Author : Nine
@File : test.py
@Func : knn
"""
import pandas as pd
import numpy as np
import operator as opt
def read_data(filename):
data = pd.read_csv(filename)
list_data = data.values.tolist()
array_data = np.array(list_data)
data_set = array_data[:,:5]
labels = array_data[:,5]
return data_set,labels
def process_data(data_set):
maxVals = data_set.max(axis=0)
minVals = data_set.min(axis=0)