spark2.0介绍

最新推荐文章于 2022-05-13 20:19:57 发布

matao_jack

最新推荐文章于 2022-05-13 20:19:57 发布

阅读量435

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/Piratesa/article/details/100148144

版权

Spark 2.0引入了重大改进，包括DataFrame与Dataset的统一，SparkSession作为新的上下文入口，SQL支持SQL 2003标准及子查询，性能提升如whole-stage code generation和vectorization技术，以及对Spark MLlib和Streaming的更新，如Structured Streaming的测试版和对Kafka 0.10的支持。

摘要由CSDN通过智能技术生成

1、Spark Core&Spark SQL API

dataframe与dataset统一，dataframe只是dataset[Row]的类型别名
SparkSession：统一SQLContext和HiveContext，新的上下文入口
为SparkSession开发的一种新的流式调用的configuration api
accumulator功能增强：便捷api、web ui支持、性能更高
dataset的增强聚合api

2、Spark Core&Spark SQL SQL

支持sql 2003标准
支持ansi-sql和hive ql的sql parser
支持ddl命令
支持子查询：in/not in、exists/not exists
3、Spark Core&Spark SQL
new feature
支持csv文件
支持缓存和程序运行的堆外内存管理
支持hive风格的bucket表
支持近似概要统计，包括近似分位数、布隆过滤器、最小略图
4、Spark Core&Spark SQL
性能
通过whole-stage code generation技术将spark sql和dataset的性能提升2~10倍
通过vectorization技术提升parquet文件的扫描吞吐量
提升orc文件的读写性能
提升catalyst查询优化器的性能
通过native实现方式提升窗口函数的性能
对某些数据源进行自动文件合并
5、Spark MLlib
spark mllib未来将主要基于dataset api来实现，基于rdd的api转为维护阶段
基于dataframe的api，

最低0.47元/天解锁文章

matao_jack

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark2.0介绍

1、Spark Core&Spark SQL APIdataframe与dataset统一，dataframe只是dataset[Row]的类型别名SparkSession：统一SQLContext和HiveContext，新的上下文入口为SparkSession开发的一种新的流式调用的configuration apiaccumulator功能增强：便捷api、web ui支持...
复制链接

扫一扫

专栏目录