Spark 1.5中数据科学的进展

2 篇文章 0 订阅
2 篇文章 0 订阅


还没来得及去跑,先记下来。

spark 1.3  出来dataframe

spark 1.4  出来sparkR

spark 1.5  出来机器学习的pipeline

数据科学API之扩展

在2015年,Spark研究的主要致力于加强大规模数据科学研究。其中主要包括这三大方面:DataFrame机器学习流水线R语言支持。这三个部分所新增的API均有效的运行在Spark环境中。在Spark 1.5中,我们已经极大地扩展了这三个方面的能力。

DataFrame在Spark 1.3中被首次发布之后,我们收到最常见的用户请求之一便是希望DataFrame能支持快速调用更多的字符串和日期/时间函数。于此我们很高兴地宣布,Spark 1.5中引入了超过100个内置函数,这些函数能够使得用户在Spark上的操作更为便利。几乎所有的内置函数均实现了代码生成,因此在Tungsten项目中可以通过使用这些函数更方便地做改动。

在Spark 1.4版本中R语言的支持是作为alpha组件进行介绍的。如今在Spark 1.5中我们提高了R语言的可用性,通过与MLlib的集成进而完成对可扩展机器学习的支持。SparkR前端支持公式定义广义线性模型、伯努利/高斯分布、弹性网络正则化。

对于机器学习,Spark 1.5在运用了新管道模型和运算法则的情况下。为新API管道提供个更好的覆盖。新管道的特征包括包括 CountVectorizer功能变压器、DCT、MinMaxScaler、 NGram、PCA、RFormula、StopWordsRemover、VectorSlicer,运算法则包括多层感知机、加强后的决策树模型、k-means聚类、朴素贝叶斯,优化工具包括训练集-验证集分割、多类分类评估。此外还新增了包括频繁项挖掘算法PrefixSpan、关联规则生成、Kolmogorov-Smirnov检验等。

Spark Package生态系统的发展

Spark 1.5的发布很好地说明了Spark Package生态系统的发展。如今,Spark提供了超过100个package,我们只需通过简单的标记便可启动Spark程序。这些package囊括了机器学习算法、数据源集成、测试工具等。许多package随着Spark 1.5的发布也进行了更新,其中就有spark-csv、 spark-redshift 与 spark-avro这些数据源连接器。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值