git上找到的一个大神写的spark ml源码分析,非常详尽
地址:https://github.com/endymecy/spark-ml-source-analysis
spark机器学习算法研究和源码分析
本项目对spark ml
包中各种算法的原理加以介绍并且对算法的代码实现进行详细分析,旨在加深自己对机器学习算法的理解,熟悉这些算法的分布式实现方式。
本系列文章支持的spark版本
本系列文章大部分的算法基于spark 1.6.1,少部分基于spark 2.x。
本系列的目录结构
本系列目录如下: