spark2.0介绍

Spark 2.0引入了重大改进,包括DataFrame与Dataset的统一,SparkSession作为新的上下文入口,SQL支持SQL 2003标准及子查询,性能提升如whole-stage code generation和vectorization技术,以及对Spark MLlib和Streaming的更新,如Structured Streaming的测试版和对Kafka 0.10的支持。
摘要由CSDN通过智能技术生成

1、Spark Core&Spark SQL API

  • dataframe与dataset统一,dataframe只是dataset[Row]的类型别名
  • SparkSession:统一SQLContext和HiveContext,新的上下文入口
  • 为SparkSession开发的一种新的流式调用的configuration api
  • accumulator功能增强:便捷api、web ui支持、性能更高
  • dataset的增强聚合api

2、Spark Core&Spark SQL SQL

  • 支持sql 2003标准
  • 支持ansi-sql和hive ql的sql parser
  • 支持ddl命令
  • 支持子查询:in/not in、exists/not exists
    3、Spark Core&Spark SQL
    new feature
  • 支持csv文件
  • 支持缓存和程序运行的堆外内存管理
  • 支持hive风格的bucket表
  • 支持近似概要统计,包括近似分位数、布隆过滤器、最小略图
    4、Spark Core&Spark SQL
    性能
  • 通过whole-stage code generation技术将spark sql和dataset的性能提升2~10倍
  • 通过vectorization技术提升parquet文件的扫描吞吐量
  • 提升orc文件的读写性能
  • 提升catalyst查询优化器的性能
  • 通过native实现方式提升窗口函数的性能
  • 对某些数据源进行自动文件合并
    5、Spark MLlib
  • spark mllib未来将主要基于dataset api来实现,基于rdd的api转为维护阶段
  • 基于dataframe的api,
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值