机器学习的类型和机器学习之最近邻居/k-近邻算法 (K-Nearest Neighbors,KNN)

不想当分母

已于 2022-03-25 17:31:02 修改

阅读量621

点赞数

分类专栏：机器学习文章标签：机器学习

于 2022-03-25 17:29:34 首次发布

本文链接：https://blog.csdn.net/qq_56618414/article/details/123739747

版权

3 篇文章 0 订阅

订阅专栏

机器学习中主要分为三大类：

监督学习算法 (Supervised Algorithms）:在监督学习训练过程中，可以由训练数据集学到或建立一个模式（函数 / learning model），并依此模式推测新的实例。该算法要求特定的输入/输出，首先需要决定使用哪种数据作为范例。例如，文字识别应用中一个手写的字符，或一行手写文字。主要算法包括神经网络、支持向量机、最近邻居法、朴素贝叶斯法、决策树等。
无监督学习算法 (Unsupervised Algorithms):这类算法没有特定的目标输出，算法将数据集分为不同的组。
强化学习算法 (Reinforcement Algorithms):强化学习普适性强，主要基于决策进行训练，算法根据输出结果（决策）的成功或错误来训练自己，通过大量经验训练优化后的算法将能够给出较好的预测。类似有机体在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。在运筹学和控制论的语境下，强化学习被称作“近似动态规划”（approximate dynamic programming，ADP）。

2,KNN算法

KNN是通过测量不同特征值之间的距离进行分类。

思路是：如果一个样本在特征空间中的k个最邻近的样本中的大多数属于某一个类别，则该样本也划分为这个类别。 KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

该算法的计算方法：

计算这个点与其他所有点的距离，选取最近的k个点，取k个点中最多的是那个类型的点就是判定为那个类型，

该算法涉及3个主要因素：实例集、距离或相似的衡量、k的大小。

这个距离就是欧氏距离

knn的基本思路：

有那么一堆你已经知道分类的数据，然后当一个新数据进入的时候，就开始跟训练数据里的每个点求距离，然后挑离这个训练数据最近的K个点看看这几个点属于什么类型，然后用少数服从多数的原则，给新数据归类。

KNN和SVM的比较：
SVM采取的是积极学习，KNN采取的是消极学习

这种学习方式是指在进行某种判断（例如，确定一个点的分类或者回归中确定某个点对应的函数值）之前，先利用训练数据进行训练得到一个目标函数，待需要时就只利用训练好的函数进行决策，显然这是一种一劳永逸的方法

这种学习方式指不是根据样本建立一般化的目标函数并确定其参数，而是简单地把训练样本存储起来，直到需要分类新的实例时才分析其与所存储样例的关系，据此确定新实例的目标函数值。也就是说这种学习方式只有到了需要决策时才会利用已有数据进行决策

积极学习和消极学习的比较

积极学习更加考虑全局变量，，但是你训练花费了大量的时间，决策的时候就可以几乎直接出现结果

消极学习，则不会这样，在决策时虽然需要计算所有样本与查询点的距离，但是在真正做决策时却只用了局部的几个训练数据，所以它是一个局部的近似，然而虽然不需要训练，它的复杂度还是需要O(n),n为训练样本的个数，这样子，就会产生一个大量的决策时间，

消极学习的缺点：1、决策的时候花费大量的时间

2.需要大量的空间去存储这些变量

关注

专栏目录