机器学习十大算法之一：KNN

最新推荐文章于 2022-02-25 20:17:48 发布

pennyyangpei

最新推荐文章于 2022-02-25 20:17:48 发布

阅读量664

点赞数 1

分类专栏：算法机器学习

本文链接：https://blog.csdn.net/qq_42379006/article/details/80928992

版权

本文介绍了机器学习中的KNN算法，包括其在监督学习中的应用，基本流程，K值选择的影响以及kd树的概念和作用。KNN算法通过找到最近的k个邻居进行分类，适用于大样本自动分类，但存在计算量大、过拟合等问题。kd树是一种高效的数据结构，用于在高维空间中加速KNN搜索。

摘要由CSDN通过智能技术生成

1-1 机器学习算法分类

一、基本分类：

①监督学习（Supervised learning）

数据集中的每个样本有相应的“正确答案”，根据这些样本做出
预测，分有两类：回归问题和分类问题。

步骤1：数据集的创建和分类
步骤2：训练
步骤3：验证
步骤4：使用

（ 1）回归问题举例
例如：预测房价，根据样本集拟合出一条连续曲线。
（ 2）分类问题举例
例如：根据肿瘤特征判断良性还是恶性，得到的是结果是“良性”或者“恶性”，是离散的。

监督学习：从给定的训练数据集中学习出一个函数（模型参数），当新的数据到来时，可以根据这个函数预测结果。监督学习的训练集要求包括输入输出，也可以说是特征和目标。训练集中的目标是由人标注的。
PCA和很多deep learning算法都属于无监督学习

②无监督学习

无监督学习：输入数据没有被标记，也没有确定的结果。样本数据类别未知，需要根据样本间的相似性对样本集进行分类（聚类， clustering）试图使类内差距最小化，类间差距最大化。
实际应用中，不少情况下无法预先知道样本的标签，也就是说没有训练样本对应的类别，因而只能从原先没有样本标签的样本集开始学习分器设计

有监督学习	无监督学习
样本	必须要有训练集与测试样本。在训练集中找规律，而对测试样本使用这种规律。
目标	方法是识别事物，识别的结果表现在给待识别数据加上了标签。因此训练样本集必须由带标签的样本组成。