Apache Spark 2.3 重要特性介绍

Apache Spark 2.3 引入了毫秒延迟的连续流处理模式,实现低延迟实时应用。支持流与流的Join操作,适用于广告分析等场景。新增对Kubernetes的支持,允许在Kubernetes集群上运行Spark作业。PySpark增加了Pandas UDFs,提供高性能Python UDF。此外,MLlib也得到了增强,模型和Pipelines可在Structured Streaming中使用。
摘要由CSDN通过智能技术生成

本文翻译自:https://databricks.com/blog/2018/02/28/introducing-apache-spark-2-3.html

为了继续实现 Spark 更快,更轻松,更智能的目标,Spark 2.3 在许多模块都做了重要的更新,比如 Structured Streaming 引入了低延迟的连续处理(continuous processing);支持 stream-to-stream joins;通过改善 pandas UDFs 的性能来提升 PySpark;支持第四种调度引擎 Kubernetes clusters(其他三种分别是自带的独立模式Standalone,YARN、Mesos)。除了这些比较具有里程碑的重要功能外,Spark 2.3 还有以下几个重要的更新:

  • 引入 DataSource v2 APIs [SPARK-15689SPARK-20928]

  • 矢量化(Vectorized)的 ORC reader [SPARK-16060]

  • Spark History Server v2 with K-V store [SPARK-18085]

  • 基于 Structured Streaming 的机器学习管道API模型 [SPARK-13030SPARK-22346SPARK-23037]

  • MLlib 增强 [SPARK-21866SPARK-3181SPARK-21087SPARK-20199]

  • Spark SQL 增强 [SPARK-21485SPARK-21975SPARK-20331SPARK-22510SPARK-20236]

这篇文章将简单地介绍上面一些高级功能和改进,更多的特性请参见 Spark 2.3 release notes:https://spark.apache.org/releases/spark-release-2-3-0.html

    毫秒延迟的连续流处理

    Apache Spark 2.0 的 Structured Streaming 将微批次处理(micro-batch processing)从它的高级 APIs 中解耦出去,原因有两个:首先,开发人员更容易学习这些 API,不需要考虑这些 APIs 的微批次处理情况;其次,它允许开发人员将一个流视为一个无限表,他们查询流的数据,就像他们查询静态表一样简便。

    但是,为了给开发人员提供不同的流处理模式,社区引入了一种新的毫秒级低延迟(millisecond low-latency)模式:连续模式(continuous mode)。

    在内部,结构化的流引擎逐步执行微批中的查询计算,执行周期由触发器间隔决定,这个延迟对大多数真实世界的流应用程序来说是可以容忍的。


    如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop

    对于连续模式,流读取器连续拉取源数据并处理数据,而不是按指定的触发时间间隔读取一批数据。通过不断地查询源数据和处理数据,新的记录在到达时立即被处理,将等待时间缩短到毫秒,满足低延迟的应用程序的需求,具体如下面图所示:


    如果想及时了解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop

    目前连续模式支持 map-like Dataset 操作,包括投影(projections)、selections以及其他 SQL 函数,但是不支持 current_timestamp()

    评论
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包
    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值