spark 2.0.1(技术预览版)的编译与测试(附一些新特性的介绍)

spark 2.0的预览版在前几个月已经吵得沸沸扬扬,趁着今天一起编译了下这个版本,还是非常方便的。


这回采用MVN来进行编译,具体见官网的编译帮助。

Building with build/mvn

Spark now comes packaged with a self-contained Maven installation to ease building and deployment of Spark from source located under thebuild/ directory. This script will automatically download and setup all necessary build requirements (MavenScala, and Zinc) locally within thebuild/ directory itself. It honors any mvn binary if present already, however, will pull down its own copy of Scala and Zinc regardless to ensure proper version requirements are met. build/mvn execution acts as a pass through to the mvn call allowing easy transition from previous build methods. As an example, one can build a version of Spark as follows:

build/mvn -Pyarn -Phadoop-2.4 -Dhadoop.version=2.4.0 -DskipTests clean package

输入上述命令,即可编译完成。



然后配置各种环境,进行测试,如对其dataset进行测试。


这个看起来还是相当不错的。以后dataset的用途将相当明显。


当然从目前一些介绍来看,这个升级版本在SQL查询方面将更加强大。



最终的Apache Spark 2.0发布还有几个星期,其新特性主要如下:

更简单:SQL和简化的API

Spark 2.0依然拥有标准的SQL支持和统一的DataFrame/Dataset API。但我们扩展了Spark的SQL 性能,引进了一个新的ANSI SQL解析器并支持子查询。Spark 2.0可以运行所有的99 TPC-DS的查询,这需要很多的SQL:2003功能。

在编程API方面,我们已经简化了API:

  • 统一Scala/Java下的DataFrames 和 Datasets 

  • SparkSession

  • 更简单、更高性能的Accumulator API

  • 基于DataFrame的Machine Learning API 将成为主要的ML API

  • Machine Learning 管道持久性 

  • R中的分布式算法

更快:Spark 作为一个编译器

Spark 2.0将拥有更快的速度,下图是Spark 2.0和Spark 1.6的速度对比图:


更智能:结构化数据流

通过在DataFrames之上构建持久化的应用程序来不断简化数据流,允许我们统一数据流,支持交互和批量查询。


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值