机器学习经典算法之一：KNN

Florayyli

已于 2022-03-09 23:45:27 修改

阅读量1.1k

点赞数 1

分类专栏：机器学习十大经典算法文章标签：机器学习算法 sklearn

于 2022-03-09 21:51:03 首次发布

本文链接：https://blog.csdn.net/l________yy/article/details/123388140

版权

机器学习十大经典算法专栏收录该内容

2 篇文章 0 订阅

订阅专栏

机器学习经典算法之一：KNN

什么是KNN算法

什么是KNN算法

KNN算法，即K邻近算法，根据已知的数据样本排序，取得最靠近待预测样本的前K个已知数据样本的目标值，作为待预测样本的目标值，是一种监督式的学习方式。
（大白话：根据邻居来推断类别）

实例：用KNN实现鸢尾花分类

案例说明：
数据集为Iris鸢尾花图片数据集，本算法通过KNN（K邻近算法）对鸢尾花进行分类，并计算最终的准确率。

# 数据集
from sklearn.datasets import load_iris
# 划分测试训练
from sklearn.model_selection import train_test_split
# 标准化
from sklearn.preprocessing import StandardScaler
# 分类器
from sklearn.neighbors import KNeighborsClassifier

def dnn_iris():
    '''用KNN算法对鸢尾花分类'''
    # 1 获取数据
    iris = load_iris()
    # 2 划分数据集
    x_train,x_test,y_train,y_test = train_test_split(iris.data, iris.target, random_state=6)# 随机数种子
    # 3 特征工程标准化(x-u/σ)区别归一化（x-min/max-min）
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    # 沿用上述的fit标准差
    x_test = transfer.transform(x_test)
    # 4 KNN算法预估器
    estimator = KNeighborsClassifier(n_neighbors=3)
    estimator.fit(x_train,y_train)
    # 5 模型评估 准确率
    score = estimator.score(x_test,y_test)
    print(score)
    return None

if __name__ == '__main__':
    print('KNN算法进行鸢尾花分类')
    dnn_iris()

算法注意的细节

1、K的选取

（1）k过大–>会出现样本不均衡带来的影响
（2）k过小–>会出现样本异常值带来的影响

2、消除量纲所选取的方法

（1）标准化–>(x-μ)/σ
（2）归一化–>(x-min)/(max-min)
在本算法中选取标准化来消除量纲影响，原因是，归一化方法可能会出现异常值的影响。

3、如何衡量样本邻近

（1）欧氏距离
样本的各个指标的差平方之和再开方
（2）曼哈顿距离
样本的各个指标的差的绝对值之和
在本算法中选取欧氏距离来衡量样本间的距离

4、时间复杂度

O(NT)，其中N为数据量，T为迭代轮数，因此当T=1时，时间复杂度为O(N)。另外，距离排序算法时间复杂度为O(NlogN)。

说明：个人学习使用，参考视频链接为https://www.bilibili.com/video/BV1nt411r7tj?p=21&spm_id_from=pageDriver

Florayyli

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习经典算法之一：KNN

机器学习经典算法之一：KNN什么是KNN算法实例：用KNN实现鸢尾花分类算法注意的细节1、K的选取2、消除量纲所选取的方法3、如何衡量样本邻近4、时间复杂度什么是KNN算法KNN算法，即K邻近算法，根据已知的数据样本排序，取得最靠近待预测样本的前K个已知数据样本的目标值，作为待预测样本的目标值，是一种监督式的学习方式。（大白话：根据邻居来推断类别）实例：用KNN实现鸢尾花分类案例说明：数据集为Iris鸢尾花图片数据集，本算法通过KNN（K邻近算法）对鸢尾花进行分类，并计算最终的准确率。# 数据
复制链接

扫一扫