bgb邻居关系建立模型_机器学习模型算法“知多少”？

最新推荐文章于 2022-07-19 11:32:51 发布

weixin_39802814

最新推荐文章于 2022-07-19 11:32:51 发布

阅读量222

点赞数

文章标签： bgb邻居关系建立模型

本文链接：https://blog.csdn.net/weixin_39802814/article/details/111685340

版权

行业大数据平台建设中，势必要用到大数据技术，我们上周为大家讲解了《有哪些常见的数据分析模型应用于大数据分析中？》。而大数据技术中，机器学习与数据挖掘算法是最重要的一环，下面就让我们对一些常见的算法与模型进行简要介绍。

众所周知，机器学习模型通常包括分类模型、回归模型、聚类模型、预测模型、关联挖掘模型等。它们分别用于解决不同的问题以及应用于不同的营销场景。今天，让我们就ML中最常见的分类模型进行一番剖析。

我们经常会听到数据分析初学者们提这样一个问题——究竟分类和回归的区别是什么？

下面，让我们用一个表格做对比：

特性	分类(监督学习)	回归
输出类型	离散数据	连续数
目的	寻找决策边界	找到最优化拟合
评价方法	精度、混淆矩阵等	SSE(sum of square errors)或拟合优度

看明白了么？

区分类与回归，看的不是输入，而是输出。输出为离散数据(或者说定性输出)为分类；输出为连续数据(或者说定量输出)为回归。

如果您还有疑问，没关系，让我们再举一个例子：

云青青兮欲雨，水澹澹兮生烟。

这里“云青青”就是输入，“青青”是云的特征，而“雨”则是我们的预测输出。可以看出，在这个预测模型中，我们想要得到的输出是天气，他是“晴朗、阴天、雨天”的子集，是不连续的，所以这是一个典型的分类问题。

再比如：

The woods are lovely, dark and deep,

But I have promises to keep,

And miles to go before I sleep,

And miles to go before I sleep.

这这例子中我们可以知道，树林的特征是['lovely', 'dark', 'deep']，由此预测出前面路还很长。而这里的miles是一个数字，它是连续的值，所以这个例子就是回归。

好了，到这里你应该对分类和回归的区别有了一个初步的认识。接下来让我们来看看分类模型和回归模型的具体定义。

分类模型

分类模型是监督式学习模型，即分类需要使用一些已知类别的样本集去学习一个模式，用学习得到的模型来标注那些未知类别的实例。在构建分类模型的时候，需要用到训练集与测试集，训练集用来对模型的参数进行训练，而测试集则用来验证训练出来的模型的效果的好坏，即用来评价模型的好坏程度，常用的评价指标有准确率与召回率。针对不同的分类任务、不同的数据以及不同的适应场景，分类中有着不同的分类算法。常见的分类方法包括：决策树、贝叶斯、K近邻、支持向量机、工神经网络等。

决策树

决策树是进行分类与预测的常见方法之一 ，决策树学习方法是从训练集中每个样本的属性进行构建一棵属性树，它按照一定的规则选择不同的属性作为树中的节点来构建属性和类别之间的关系，常用的属性选择方法有信息增益、信息增益率以及基尼系数等。它采用自顶而下递归构建这颗属性类别关系树，树的叶子节点便是每个类别，非叶子节点便是属性，节点之间的连线便是节点属性的不同取值范围。决策树构建后，便从决策树根节点开始从上到下对需要进行类别标注的实例进行属性值的比较，最后到达某个叶子节点，该叶子节点所对应的类别便是该实例的类别。常用的决策树算法有 ID3、C4.5/C5.0、CART等 。这些算法的区别主要在于属性选择的策略、决策树的结构(如决策树中出现重复属性)、是否采用剪枝以及剪枝的方法、是否处理大数据集(即算法的复杂度，包括时间与空间复杂度)等。

贝叶斯分类器

贝叶斯分类算法是基于概率论中的贝叶斯公式对实例进行分类的算法 ，它使用贝叶斯公式计算实例特征向量下每个类别的条件概率，选择条件概率最大所对应的类别作为其类别。常见的贝叶斯分类算法包括朴素贝叶斯、贝叶斯网络等，区别在于假设属性之间是否条件独立。朴素贝叶斯是假设属性之间是条件独立的，但是这种假设往往是不成立的。而贝叶斯网络是假设部分属性之间是有关联的，从而构建一个属性有向网络。

Bayes’ Rule

K近邻

K近邻算法是基于实例的分类算法。 该算法首先定义一个邻居范围，即设定邻居的个数，然后采用投票的方式来决定自己所属的类别，即多数战胜少数的策略，自己的类别为邻居中大部分所对应的类别。一般都是采用欧式距离，即选取欧式距离最近的K个已标注类别的样本作为自己的邻居，既可以采取邻居平等投票的方式，也可以采取邻居权值的方式进行投票，即不同的邻居的意见有着不同的权重，一般距离越近的邻居权重越大。该方法有个缺点就在于对每一个未知类别的实例都需要计算其与样本空间中所有样本的距离，因此复杂度过高， 无法满足那些实时性要求较高的分类场景 。

K临近模型对应特征空间的一个划分

支持向量机

支持向量机(SVM)是一种统计机器学习分类算法 ，它是建立在由Vapnik和Chervonenkis提出的统计学习理论的VC维理论和结构风险最小化原理的基础上。结构化风险等于经验风险加上置信风险，而经验风险为分类器在给定训练样本上的误差，置信风险为分类器在未知类别的实例集上的分类误差。给定的训练样本的数量越多，泛化能力越有可能越好，则学习效果越有可能更好，此时置信风险越小。以前的学习算法目标是降低经验风险，要降低经验风险，则需要增加模型对训练样本的拟合度，即提高分类模型的复杂度，此时会导致VC维很高，泛化能力就差，置信风险就高，所以结构风险也高。而 SVM算法则是以最小化结构风险为目标 ，这便是SVM的优势。SVM是最大化分类几何间隔来构建最优分类超平面来提高模型的泛化能力的。并且引入核函数来降低VC维的。支持向量机在对未知类别的实例进行分类时使用该实例落在超平面哪个区域所对应的类别作为该实例的类别的。

人工神经网络

人工神经网络模拟人脑的工作原理，使用节点之间的连接来模拟人脑中的神经元连接来进行信息处理的机器学习模型。 人工神经网络包括输入层、隐含层、输出层。这些层以此使用不同的权值进行连接，每个节点(神经元)都有一个激励函数，用来模拟人脑神经元的抑制与兴奋。信息从输入层流通到输出层，并且使用训练集来学习网络中的权值，改善网络的效果。一般是使用梯度下降误差反向传播来对网络中的参数进行学习更新，以达到更多的误差，直到满足精度要求。在分类中，首先使用训练集样本对网络中的参数进行学习，然后从输入层输入未知实例的特征向量，输出层的输出便是其类别。常见的人工神经网络有： BP神经网络、RBF神经网络、循环神经网络、随机神经网络、竞争神经网络以及深度神经网络等 。不同的神经网络用来处理不同的应用场景。

总结

不同的分类算法适应着不同的应用场景。 在选择分类算法是，需要考虑它们的优缺点。比如特别关注分类准确度，那么可以分别使用上述的分类算法，然后使用交叉验证选择最好的分类算法。 首先，要考虑模型的训练集有多大。 如果训练集较小，那么高偏差／低方差的分类器(如贝叶斯分类器、SVM、集成学习)要比低偏差／高方差的分类器具有优势，因为后者容易过拟合。然而随着训练集的增大，低偏差／高方差的分类器将开始具有优势(它们拥有更低的渐进误差)。然后要根据不同分类器的特点去选择：

朴素贝叶斯简单，容易理解，但是需要假设属性之间条件独立。
决策树解释性强，能够处理属性之间的交叉关系，并且模型是非参数化的，但是器不支持在线学习，于是在新样本到来后，决策树需要进行重建；以及容易过拟合。
K近邻容易理解，简单，但是其复杂度高，不适合实时性要求高的场景。
支持向量机具有很好的理论支持，分类准确率高，对于线性不可分的情况，可以使用核函数进行映射到高维空间而线性可分，但是只适合训练集较小的情况，内存消耗大。
人工神经网络效果好，能够以任意精度去拟合非线性分类器，但是模型解释性不强，并且训练复杂，学习速度慢。

关于分类模型的介绍就到这里。 下一讲，我们将对机器学习的其他几种模型做更深入的探讨。 感谢各位看官的支持！

关于赛诺数据

赛诺数据(品牌名称：Datakey)作为赛诺贝斯的全资子公司，集结了众多业界精英，建成以数据科学家、AI算法专家、数据咨询专家、数据产品专家及行业研究专家为核心的大数据技术应用与产业化研发团队，合力打造世界一流的数据智能技术服务平台，让数据创造价值。欢迎点击“”在线咨询，或拨打400-0979-006，咨询更多大数据解决方案。

bgb邻居关系建立模型_机器学习模型算法“知多少”？

“相关推荐”对你有帮助么？