MLlib中分类算法在全部算法中占据了非常重要的部分,其中包括逻辑回归、支持向量机(SVM)、贝叶斯分类器等
1.逻辑回归
逻辑回归和线性回归类似,但它不属于回归分析家族,差异主要是在于变量不同,因此其解法和生成曲线也不尽相同。逻辑回归也是无监督学习的一个重要算法,特别是用在二分分类中。
逻辑回归实际上就是对已有数据进行分析从而判断其结果可能是多少,它可以通过数学公式来表达。
MLlib中MulticlassMetrics类是对数据进行分类的类,其中包括各种方法。
2.支持向量机
通过找到支持向量从而获得分类平面的方法,称为支持向量机。可以非常成功地处理回归(时间序列分析)和模式识别(分类问题、判别分析)等诸多问题,并可推广到预测和综合评价等领域,因此可应用于理科、工科和管理等多种学科。
MLlib中对支持向量机算法有较好的支持,用来解决一般线性回归和逻辑回归不好处理的数据分类内容,结果验证其准确性较好。
训练模型的代码如下def train(input:RDD[LabeledPoint],numIterations:Int):SVMModel
3.贝叶斯方法
贝叶斯方法是统计分析中一个最基本的数据分析方法,这种方法是基于假设的先验概率、给定假设下观察到不同数据的概率,以及观察到的数据本身而得出的。其方法为,将关于未知参数的先验信息与样本信息综合,再根据贝叶斯公式,得出后验信息,然后根据后验信息去推断未知参数的方法。
MLlib中贝叶斯方法主要是作为分类器进行使用,其目的是根据向
量的不同对其进行分类处理。
逻辑回归和支持向量机是常用的分类方法,比较而言对于多元的线性回归分类,由于逻辑回归在算法上有一点的欠缺,因此使用支持向量机对进行多元的数据进行分类,可以较好地达成拟定的分类任务,其过拟合和欠拟合现象较少,这个请读者在后续的试验中自行测试。朴素贝叶斯目前常用于文本分类的工作,由于模型简单,程序编写容易,运行速度快等多项优点,它被广泛地应用在现实中,分类结果也较为理想。
Spark Mllib数据挖掘入门五——监督分类(逻辑回归、支持向量机、贝叶斯方法)
最新推荐文章于 2023-06-21 17:49:15 发布