Spark 1.5中数据科学的进展

最新推荐文章于 2024-09-22 07:06:23 发布

wa2003

最新推荐文章于 2024-09-22 07:06:23 发布

阅读量602

点赞数

本文链接：https://blog.csdn.net/wa2003/article/details/48968159

版权

spark 同时被 3 个专栏收录

3 篇文章 0 订阅

订阅专栏

sparkR

2 篇文章 0 订阅

订阅专栏

data frame

2 篇文章 0 订阅

订阅专栏

还没来得及去跑，先记下来。

spark 1.3 出来dataframe

spark 1.4 出来sparkR

spark 1.5 出来机器学习的pipeline

数据科学API之扩展

在2015年，Spark研究的主要致力于加强大规模数据科学研究。其中主要包括这三大方面：DataFrame、机器学习流水线、R语言支持。这三个部分所新增的API均有效的运行在Spark环境中。在Spark 1.5中，我们已经极大地扩展了这三个方面的能力。

自DataFrame在Spark 1.3中被首次发布之后，我们收到最常见的用户请求之一便是希望DataFrame能支持快速调用更多的字符串和日期/时间函数。于此我们很高兴地宣布，Spark 1.5中引入了超过100个内置函数，这些函数能够使得用户在Spark上的操作更为便利。几乎所有的内置函数均实现了代码生成，因此在Tungsten项目中可以通过使用这些函数更方便地做改动。

在Spark 1.4版本中R语言的支持是作为alpha组件进行介绍的。如今在Spark 1.5中我们提高了R语言的可用性，通过与MLlib的集成进而完成对可扩展机器学习的支持。SparkR前端支持公式定义广义线性模型、伯努利/高斯分布、弹性网络正则化。

对于机器学习，Spark 1.5在运用了新管道模型和运算法则的情况下。为新API管道提供个更好的覆盖。新管道的特征包括包括 CountVectorizer功能变压器、DCT、MinMaxScaler、 NGram、PCA、RFormula、StopWordsRemover、VectorSlicer，运算法则包括多层感知机、加强后的决策树模型、k-means聚类、朴素贝叶斯，优化工具包括训练集-验证集分割、多类分类评估。此外还新增了包括频繁项挖掘算法PrefixSpan、关联规则生成、Kolmogorov-Smirnov检验等。

Spark Package生态系统的发展

Spark 1.5的发布很好地说明了Spark Package生态系统的发展。如今，Spark提供了超过100个package，我们只需通过简单的标记便可启动Spark程序。这些package囊括了机器学习算法、数据源集成、测试工具等。许多package随着Spark 1.5的发布也进行了更新，其中就有spark-csv、 spark-redshift 与 spark-avro这些数据源连接器。