K - 近邻算法

最新推荐文章于 2024-04-23 18:18:39 发布

夏安　　　

最新推荐文章于 2024-04-23 18:18:39 发布

阅读量123

点赞数 1

分类专栏：机器学习文章标签：机器学习 python

本文链接：https://blog.csdn.net/p1967914901/article/details/111402792

版权

机器学习专栏收录该内容

19 篇文章 1 订阅

订阅专栏

K - 近邻算法

K-近邻算法(KNN)原理
K-近邻算法 API
案例：鸢尾花种类预测
结果分析
K-近邻总结

K-近邻算法(KNN)原理

K Nearest Neighbor算法又叫KNN算法，这个算法是机器学习里面一个比较经典的算法，总体来说KNN算法是相对比较容易理解的算法

定义

如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。
距离公式
两个样本的距离

曼哈顿距离（绝对值距离）
欧氏距离
明可夫斯基距离

K-近邻算法 API

sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm='auto')
- n_neighbors：int,可选(默认=5)，k_neighbors查询默认使用的邻居数。
- algorithm:{'auto'，'ball_tree','kd_tree'，'brute'}，可选用于计算最近邻居的算法：'ball_tree'将会使用BallTree,'kd_tree'将使用KDTree。'auto'将尝试根据传递给fit方法的值来决定最合适的算法。(不同实现方式影响效率)

案例：鸢尾花种类预测

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier

if __name__ == '__main__':
    #  获取数据
    iris = load_iris()

    # 划分数据集
    x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=6)

    # 特征工程：标准化
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.fit_transform(x_test)     # 控制变量, 用同样的参数进行标准化

    # KNN 算法预估器
    estimator = KNeighborsClassifier(n_neighbors=3)
    estimator.fit(x_train, y_train)

    # 模型评估
    # 方法一：直接对比真实值和预测值
    y_predict = estimator.predict(x_test)
    print('y_predict：\n', y_predict)
    print('直接对比真实值和预测值:\n', y_test == y_predict)

    # 方法二：计算准确率
    score = estimator.score(x_test, y_test)
    print('准确率:\n', score)