![](https://img-blog.csdnimg.cn/3a91517722ee4f878d80223b4d61ae09.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
Spark MLlib源码学习笔记
文章平均质量分 96
本专栏聚焦于Spark ML/MLlib库中官网集成的机器学习算法以及github上第三方基于Spark开发的算法包的源码分析。
wangongxi
会点Java,会点大数据,会点算法的程序员
展开
-
Spark MLlib 源码学习---线性回归模型(LinearRegression)
Spark的机器学习库MLlib应该是自己接触的第二个分布式机器学习库,第一个是Mahout。MLlib本身提供了常用的分类和回归算法,还有特征提取与频繁项集的一些数据挖掘算法,因此构建数据清洗+数据建模的pipeline是比较方便的。当然,作为构建于Spark计算引擎之上的算法应用也自然比Mahout高效不少。目前Spark已经到了3.x的版本,但是MLlib的更新迭代并不是很快。但这没关系,有很多第三方的算法应用可以拿来使用,包括intel的一些库还有github上独立的一些repo,这个后续会逐步介绍原创 2021-10-08 09:31:42 · 1236 阅读 · 0 评论 -
Spark MLlib 源码学习---朴素贝叶斯模型(Naive Bayes)
朴素贝叶斯是机器学习中比较常用的一种模型,尤其在结合了词袋模型的文本分类问题上,往往有着出色的分类效果。据了解,很多公司基于文本分类的应用像垃圾邮件分类等都采用朴素贝叶斯或者贝叶斯网络来进行。朴素贝叶斯本身训练速度快,预测结果容易解释等都是该模型的优点。但缺点也很明显,主要就是在于“朴素”二字,即假设各个维度的特征是条件独立的。目前,很多的机器学习开源项目基本都支持了朴素贝叶斯,当然也包括了下面要介绍的Spark ML/MLLIB的算法包。不过,先具体介绍应用之前,还是先讲下内在的理论,这样到源码分析的时候原创 2021-10-08 09:29:09 · 982 阅读 · 0 评论