1、Spark Core&Spark SQL API
- dataframe与dataset统一,dataframe只是dataset[Row]的类型别名
- SparkSession:统一SQLContext和HiveContext,新的上下文入口
- 为SparkSession开发的一种新的流式调用的configuration api
- accumulator功能增强:便捷api、web ui支持、性能更高
- dataset的增强聚合api
2、Spark Core&Spark SQL SQL
- 支持sql 2003标准
- 支持ansi-sql和hive ql的sql parser
- 支持ddl命令
- 支持子查询:in/not in、exists/not exists
3、Spark Core&Spark SQL
new feature - 支持csv文件
- 支持缓存和程序运行的堆外内存管理
- 支持hive风格的bucket表
- 支持近似概要统计,包括近似分位数、布隆过滤器、最小略图
4、Spark Core&Spark SQL
性能 - 通过whole-stage code generation技术将spark sql和dataset的性能提升2~10倍
- 通过vectorization技术提升parquet文件的扫描吞吐量
- 提升orc文件的读写性能
- 提升catalyst查询优化器的性能
- 通过native实现方式提升窗口函数的性能
- 对某些数据源进行自动文件合并
5、Spark MLlib - spark mllib未来将主要基于dataset api来实现,基于rdd的api转为维护阶段
- 基于dataframe的api,