ML—KNN（K近邻，iris数据集为例）

最新推荐文章于 2023-04-12 01:03:51 发布

TWLS

最新推荐文章于 2023-04-12 01:03:51 发布

阅读量2.7k

点赞数

分类专栏：机器学习 Python

本文链接：https://blog.csdn.net/u010513327/article/details/84556004

版权

这篇博客介绍了KNN算法的步骤，以鸢尾花数据集为例进行演示。首先计算未知样本与训练样本的距离，然后找出最近的K个邻居，最后根据邻居类别多数票决定预测类别。数据集链接提供，并提到手动划分训练集和测试集的代码实现。

摘要由CSDN通过智能技术生成

KNN笔记

算法大致步骤（预测y的类别为例）：

1）计算样本y与训练样本（已知标签样本）的距离；

2）找出距离最近的K个样本；

3）选择这K个样本中出现最多的类别作为y的类别标记；

数据集 iris为鸢尾花样本，前四列为特征，最后一列为标签，如下图

数据连接：http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data

有点笨，直接手动将数据分为训练集和测试集

代码如下：

# -*- coding: utf-8 -*-

import operator
import pandas as pd
import numpy as np

# 获取训练数据和测试数据
def get_data(train_path, test_path):
    train_data = pd.read_table(train_path, sep=',', header=None)
    test_data = pd.read_table(test_path, sep=','