spark机器学习
nanoleak coding
这个作者很懒,什么都没留下…
展开
-
Spark ML PipeLine学习笔记
spark.ml包目标是提供统一的高级别的API,这些高级API建立在DataFrame上,DataFrame帮助用户创建和调整实用的机器学习管道。在下面spark.ml子包指导中查看的算法指导部分,包含管道API独有的特征转换器,集合等。内容表:Main concepts in Pipelines (管道中的主要概念)DataFramePipeline component转载 2017-07-23 14:29:03 · 1655 阅读 · 0 评论 -
spark mlib官方文档学习和翻译笔记(1)
机器学习库MlibMLib 是一个spark机器学习库。它的目标是使机器学习容易使用和可扩展。从一个高层角度,提供了下面的工具:机器学习算法:比如分类,回归,聚类和协同过滤特征处理: 特征抽取,转换,降维和选 择管道(Pipeline):构建工具,评估,和Pipelines优化持久化:保存和载入算法,模型,管道工具集:线性代数,统计,数据处理等等spark2.0后,sp原创 2017-08-12 11:57:17 · 635 阅读 · 0 评论 -
spark mlib官方文档学习和翻译笔记(2)
基本统计相关分析和假设检验计算两列数据的相关性是统计里的通常操作。在spark.ml里,提供了计算多列数据相关性的灵活性。支持的相关系数计算方式有皮尔逊相关系数和斯皮尔曼相关系数。Correlation使用向量组成的Dataset计算相关性矩阵。输出是一个包含向量列相关性矩阵的DataFrameimport org.apache.spark.ml.linalg.{Matri原创 2017-08-13 13:39:47 · 1289 阅读 · 0 评论