spark1.0和2.0的区别_Spark 2.1.0 入门：分类与回归

最新推荐文章于 2021-01-12 13:35:07 发布

weixin_39769039

最新推荐文章于 2021-01-12 13:35:07 发布

阅读量146

点赞数

文章标签： spark1.0和2.0的区别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39769039/article/details/111729789

版权

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！

[返回Spark教程首页]

分类算法概述

分类是一种重要的机器学习和数据挖掘技术。分类的目的是根据数据集的特点构造一个分类函数或分类模型(也常常称作分类器)，该模型能把未知类别的样本映射到给定类别中的一种技术。

分类的具体规则可描述如下：给定一组训练数据的集合T(Training set)，T的每一条记录包含若干条属性(Features)组成一个特征向量，用矢量

表示。

可以有不同的值域，当一属性的值域为连续域时，该属性为连续属性(Numerical Attribute)，否则为离散属性(Discrete Attribute)。用

表示类别属性，即数据集有k个不同的类别。那么，T就隐含了一个从矢量X到类别属性C的映射函数：

。分类的目的就是分析输入数据，通过在训练集中的数据表现出来的特性，为每一个类找到一种准确的描述或者模型，采用该种方法(模型)将隐含函数表示出来。

构造分类模型的过程一般分为训练和测试两个阶段。在构造模型之前，将数据集随机地分为训练数据集和测试数据集。先使用训练数据集来构造分类模型，然后使用测试数据集来评估模型的分类准确率。如果认为模型的准确率可以接受，就可以用该模型对其它数据元组进分类。一般来说，测试阶段的代价远低于训练阶段。

mllib分类算法

分类算法基于不同的思想，算法也不尽相同，例如支持向量机SVM、决策树算法、贝叶斯算法、KNN算法等。spark.mllib包支持各种分类方法，主要包含二分类，多分类和回归分析。下表列出了每种类型的问题支持的算法。

其中spark.mllib包支持的算法较为完善，也正逐步迁移到spark.ml包中。本节将介绍spark.ml包中一些典型的分类算法。

weixin_39769039

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark1.0和2.0的区别_Spark 2.1.0 入门：分类与回归

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！[返回Spark教程首页]分类算法概述分类是一种重要的机器学习和数据挖掘技术。分类的目的是根据数据集的特点构造一个分类函数或分类模型(也常常称作分类器)，该模型能把未知类别的样本映射到给定类别中的一种技术。分类的具体规则可描述如下：给定一组训练数据的集合T(Training set)，T的每一条记录包含若干条属性(Featur...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。