1 Spark2.x 新特性
1). Spark Core/SQL
在内存和CPU使用方面进一步优化Spark引擎性能(钨丝计划)。支持SQL 2003标准 ,支持子查询,对常用的SQL操作和DataFrame,性能有 2- 10倍的提升。
2). sparksession
Spark2 .0 中引入了 SparkSession 的概念,它为用户提供了一个统一的切入点来使用 Spark 的各项功能,统一了旧的SQLContext与HiveContext。用户不但可以使用 DataFrame 和Dataset 的各种 API,学习 Spark2 的难度也会大大降低。
3). 统一 DataFrames 和 Datasets 的 API。
它们都是提供给用户使用,包括各类操作接口的 API, 1.3 版本引入 DataFrame, 1.6版本引入Dataset,在 spark 2.0 中,把 dataframes 当作是一种特殊的 datasets,dataframes = datasets[row],把两者统一为datasets。
4). Structured Streaming
Spark Streaming基于Spark SQL(DataFrame / Dataset )构建了high-level API,使得Spark Streaming充分受益Spark SQL的易用性和性能提升。
5). 其它特性
mllib 里的计算用 DataFrame-based API 代替以前的 RDD 计算逻辑,提供更多的 R 语言算法,默认使用 Scala 2.11 编译与运行。
2.SparkSql 之dataframe和dataset
2.2 SparkSession 介绍
Spark SQL 统一入口就是 SparkSession,可以通过 SparkSession.builder
1). Spark Core/SQL
在内存和CPU使用方面进一步优化Spark引擎性能(钨丝计划)。支持SQL 2003标准 ,支持子查询,对常用的SQL操作和DataFrame,性能有 2- 10倍的提升。
2). sparksession
Spark2 .0 中引入了 SparkSession 的概念,它为用户提供了一个统一的切入点来使用 Spark 的各项功能,统一了旧的SQLContext与HiveContext。用户不但可以使用 DataFrame 和Dataset 的各种 API,学习 Spark2 的难度也会大大降低。
3). 统一 DataFrames 和 Datasets 的 API。
它们都是提供给用户使用,包括各类操作接口的 API, 1.3 版本引入 DataFrame, 1.6版本引入Dataset,在 spark 2.0 中,把 dataframes 当作是一种特殊的 datasets,dataframes = datasets[row],把两者统一为datasets。
4). Structured Streaming
Spark Streaming基于Spark SQL(DataFrame / Dataset )构建了high-level API,使得Spark Streaming充分受益Spark SQL的易用性和性能提升。
5). 其它特性
mllib 里的计算用 DataFrame-based API 代替以前的 RDD 计算逻辑,提供更多的 R 语言算法,默认使用 Scala 2.11 编译与运行。
2.SparkSql 之dataframe和dataset
2.2 SparkSession 介绍
Spark SQL 统一入口就是 SparkSession,可以通过 SparkSession.builder