干货|Spark优化之高性能Range Join

‍‍

247d983f33d917df314b7467b16d504b.png

作者|张兴超

编辑|林颖

供稿|ADI Carmel Team

本文共3884字,预计阅读时间10分钟

 导 读

Carmel是eBay内部基于Apache Spark打造的一款SQL-on-Hadoop查询引擎。通过对Apache Spark的改进,我们为用户提供了一套高可用高性能的服务,以满足eBay内部大量分析型的查询需求(如今单日查询量已超过30万)。

在生产中,我们发现有很多包含非等值连接的查询。因为BroadcastNestedLoop的实现,这些查询会产生效率问题,而变得非常耗时。本文就非等值连接中的Range Join进行分析,并重点介绍了我们对此所做的优化。

1 背 景

Background

outside_default.png

Range Join 发生在两个表的连接(Join)条件中包含“点是否在区间中”或者“两个区间是否相交”的时候[1]。过去一周,我们的OLAP引擎(Spark)中,检测到7k多条这样的SQL查询语句,在所有包含非等值连接的SQL中占比82.95%(如下图所示)。

f1056bd2b67a8eefd92167fd62029ef5.png

在现在的Spark实现中,Range Join作为一种非等值连接,是通过BroadcastNestedLoop(嵌套循环)的方式来实现的,时间复杂度为N*M,其中N为Stream表的行数,M为Build表的行数。当两个表都很大的时候,BroadcastNestedLoop效率不高的缺点就会变得愈发明显,连接过程可能会花费数个小时来完成,有的甚至无法给出结果。

比如下图中的两个例子:

案例1:数据分析师希望根据150w左右的用户登录IP,来查询用户所在的国家和地区。这就需要User Login IP表和eBay Data Warehouse(以下简称DW)中IP Range Lookup表(>1200w行)来进行连接,这在Spark引擎中需要4小时才能返回。

0d5af1ca96158d422acd7594be7ec1f0.png

(点击可查看大图)

案例2:这个属于更为常见的案例,数据分析师会经常根据日期来查询相应时间段的关联数据,如下图所示,在我们系统中同样发现了很多耗时的查询语句(Query)。

842bf8feadb9243fdf783889f231fd8e.png

(点击可查看大图)

无论从用户等待的耗时,还是系统资源的使用角度来看,这都是不能接受的。

本文中涉及的方案将在Spark中支持Range Join,以解决现有实现中效率低、耗时长的问题。结合Spark社区对Range Join的讨论[2-3],我们对原始方案进行了升级和重写,并成功应用于eBay OLAP的生产实践中。

2 Range Join的定义

Definition of Range Join

outside_default.png

典型的Range Join主要有以下两种形式[1]

1)点在区间中

b3157ad3f897baa0f97aa16bc7b4dbc6.png

2)两个区间相交

95d58fefe42c3be6e6fac3bc13800831.png

Range Join的优化可以作用于有以下特点的连接上:

1)连接条件中包含“点在区间中”或者“两个区间重叠”;

2)连接条件中的所有值为以下类型:数值(Integral、Floating Point、Decimal)、日期(DATE)、时间戳(TIMESTAMP)或者空值(NULL);

3)连接条件中的Range值有相同的类型。如对于Decimal类型,要有相同的长度和精度;

4)连接类型可以是内连接(INNER JOIN)、交叉连接(CROSS JOIN)、左外连接(LEFT OUTER JOIN)和右外连接(RIGHT OUTER JOIN)。

3 方案设计

Project Design

outside_default.png

我们对原始方案进行了升级和重写,主要包含以下几个步骤:

1)基于Build表创建一个Range Index数据;

2)Broadcast这个Index数据到Stream端;

3)Stream表基于这个Index进行连接匹配。

     和传统的嵌套循环连接(Nested Loop Join)相比,这会将连接的时间复杂度从n大幅降低为log(n),其中n是Build表的行数。

下图简要说明了该方案和传统Nested Loop Join的区别:Range Join的实现重点在构建Range Index,然后基于Index进行数据连接。

52edb6d4ac9a0798ae86aa7c165c39e7.png

(点击可查看大图)

下面我们将分别阐述Index的构建过程和连接时的查找过程。

3.1 基于Range构建的查询方案设计

如下表所示,我们现有一个Range表(原始数据是非排序的,为了更好的展示例子,这里按照第一列做了排序),含有6行数据:

41c8324add24a1b42c39f2ca40744834.png

基于上述这个表,我们建立了一个Range Index,如下图所示,其数据结构包含5个部分:

1)Keys

对表中的Range列(即range_start 和 range_end)排序,并做Distinct后组成的一个有序数组。

2)Offsets

是一个有序数组。其下标Index和“Keys”中的下标Index相同,其值表示小于“Keys”中相同Index对应值的Rows数,同时也表示“activatedRows”的下标Index。

3)activiatedRows

记录了原始表中的数据。

4)activeRows

记录了和相应Key有重叠的Rows。

5)activeNewOffsets

主要用于边界情况检查。

99ab06ab3abe5c9cb8b9d83380ac2d21.png

(点击可查看大图)

3.1.1 Range Index的创建

Index的创建需要对Build表做一些预处理,过程如下:

1)基于Rows创建Range Event,一个包含Range的Row往往可以产生两个Range Event。比如(range_start, 0, (row, index))和(range_end, 1, (row, index)),其中0和1表示Range的开和闭,row表示原始Row的值,index表示原始Row的index;

2)对Range Event按照三元组的前两个值进行排序;

3)循环排序好的Range Event填充Range Index,比如“Keys”(为Build表中range start和range end唯一不同的值)、“activated Rows”(等价于原始Build表中的Rows)以及“Offsets”(用于映射“Keys”和“activatedRows”);

4)对于activeRows:

如果是Range Event起始,则把当前行加入到“CurrentActiveRows”;

如果是Range Event结束,则把当前行从“CurrentActiveRows”中移除;

如果本次循环的Key与上次循环的Key不同,则把“CurrentActiveRows”写入“activeRows”。

3.1.2 Range数据的查找

我们对上述Range表基于Range Index进行查找。

c564d1e1ea90f2b26ea4ee184cd12d63.png

(点击可查看大图)

比如,对于一个Point(108),从上面的示意图中可以直观地得到可能匹配到的Rows——R1和R2。而对于一个Range(150, 310),从示意图中也可以得到可能匹配到的Rows——R3和R4,那么是如何通过算法来进行查找的呢?

1)点查找一个数据(如Point(108))

A. 采用二分查找算法,在“Keys”中找到比108小又最接近的Key:3->100;

B. 在“activeRows”中找到下标3对应的Row:R1和R2;

C. 得到最终结果为R1和R2。

2)匹配一个Range(如Range(150, 310))

A. 采用二分查找算法,在Keys中找到比150小又最接近的Key:6->140;

B. 在“activeRows”中找到下标6对应的Row:R3;

C. 在“Keys”中找到比310小又最接近的Key:8->300;

D. 结合步骤B中的下标“6”,我们要找到比6大而又小于C中“8+1”对应的Rows。于是,在Offsets中获得下标区间[6+1, 8+1],其对应的值为:(6+1)->4,(7+1)->4,(8+1)->5,即得到左闭右开的区间[4, 5);

E. 在“activatedRows”中根据区间[4, 5)找到对应的Row:R4;

F. 得到最终结果:R3和R4。

3.2 基于Point构建的查询方案设计

实践中,我们发现非Range表(不包含Range)一般比较小,是可以进行Broadcast的。对于这种情况,我们也可以建立只包含点的Range Index。比如下表所示的Point表(同样原始数据是非排序的,为了更好的展示例子,这里按照第一列做了排序),含有7行数据:

2fc488b6314ed187469e657895707238.png

3.2.1 Range Index的创建

我们对Point列构建Range Index,得到的如下所示的Index数据。与Range表生成的Range Index不同的是:这次的Range Index中只有Keys、Offsets和activiatedRows被填充了数据。

f81dc77e8f3379fe68f718f94de8cef4.png

(点击可查看大图)

3.2.2 Range数据的查找

我们对上Point表基于Range Index进行查找。

7dae825d6194c14aa04f741edf62e73e.png

(点击可查看大图)

比如,对于一个Range(300, 600),从以上示意图中,可以直观地得到可能匹配到的Rows:R3、R4和R5。以下是通过算法进行的查找过程:

A. 采用二分查找算法,在“Keys”中找到比300小又最接近的Key:3->200;

B. 在“Keys”中找到比600小又最接近的Key:5->500;

C. 结合步骤A中的下标“3”,我们要找到比3大而又小于步骤B中“5+1”对应的Rows。于是,在Offsets中获得下标区间[3+1, 5+1],其对应的值为:4->3,5->4和6->6,即得到左闭右开的区间[3, 6);

D. 在 “activatedRows”中对应的下标区间[3, 6)找到对应的值:R3、R4和R5;

E. 得到最终结果:R3、R4和R5。

4 性能对比

 Performance Comparison

outside_default.png

4.1 时间复杂度对比

相比嵌套循环连接(Nested Loop Join),时间复杂度的变化为:

b612e17718eb7823a26b5cfd0053a2ec.png

其中,N = 大表中的Records数量;M = 小表中的Records数量;2 = 我们需要在Range Index分别查找下限和上限。

如12M*1M→12M*2*20,理论上可以节省99.996%的计算量。

4.2 优化后的SQL查询时间对比

我们可以看到经过优化以后(如下图所示),案例1“IP Range”可以在26秒内完成,节约了99.8%的时间,而案例2“Date Range”也节约了93.9%的查询时间。如此看来,基于Range Index数据进行的连接,表现得非常令人满意。

125e7052ac55e8638f6a1276aed6f326.png

(点击可查看大图)

4.3 Spark DAG对比

相比于传统的BroadcastNestLoopJoin算子(如下表所示),我们引入了一种新的BroadcastRangeJoin算子来进行连接的计算,同时选择BroadcastRangeExechange来代替BroadcastExechange,用于基于Build表数据来创建RangeIndex。

b582deb3a32bfbb8250967c685948c7a.png

(点击可查看大图)

4.4 和业界主流的OLAP引擎对比

如下表所示,我们选取了其中几个比较有代表性的引擎——OLAP中社区版Spark、Presto、Doris以及传统关系型数据库“Postgres”。通过对比可以发现,业界对Range Join的优化较少。

072d276e433837b552e1ac4ef8fe18f7.png

(点击可查看大图)

5 实 现

Realize

outside_default.png

我们已经上线了Range Join优化中的大部分Feature,覆盖了线上85%含有Range形式的非等值连接。

23cfafa7adf0134a69842c1c7c1d9994.png

其中的Feature主要包括:

1)支持Point in Interval(点在区间中)的Range Join。这是Range Join的第一个Feature,包含了

A. Range Join的识别和选择

B. Range Index的创建

C. BroadcastRangeJoin算子的实现

D. 对“A Between B and C”这样的连接场景的支持,比如

363779cf47583c9d5e31ac215a20d134.png

2)支持部分Range Join。这是对“A Between B and C”的扩展,支持了“A<B”或者“A>B”这样单一大小的比较场景,比如

3136e7868b108fd6430ef4dec33809c2.png

3)重用Broadcast Range Exchange。BroadcastRangeJoin引入了BroadcastRangeExchange算子,同时增强了规范化相关的计算方式以支持Shuffle Exechange复用。

4)支持从复杂连接条件中检测Range形式[4],使其适用于Range Join。比如连接条件:

9fec806a97914b56f240a38a5121fad3.png

上述连接条件中隐含了以下两个Range:

(1)CAL_DT在区间[AD_STATUS_START, AD_STATUS_END]

dde4c661c47c8c987bbba46a200f0fbd.png

(2)CAL_DT在区间[AD_ORGNL_START, AD_ACTL_END]

1ac91bb9b3738fc86451898877f408f4.png

Range Join会自动选择其中一个Range条件来创建Range Index,另外一个Range条件或者其他条件会作为辅助条件在连接发生时进行进一步的匹配。

5)支持Interval Overlap(区间重叠)场景[5]。比如:

f733c87cb5e5da7ada025f0229bf5522.png

除了上述已实现的Range Join,我们正在进行进一步的优化,使其可以支持左/右/全外连接(Left/Right/Full Outer Join)。鉴于Broadcast Range Join已经非常高效,所以暂时还未支持代码生成。

6 总 结

Conclusion

outside_default.png

对于Range Join这个案例,我们解决问题的整体基本思路是:

①发现问题:连接耗时长;

②发现Build表不是很大,而且一般可以做Broadcast;

③对Build表基于某种算法建立Index数据;

④基于Index数据进行连接,代替传统的Nested Loop Join基于Row数据的连接。

58e091d610e02458b6e65abb6753e0a9.png

(点击可查看大图)

这种优化的方式可以用于解决其他类似的连接耗时问题,给那些可以Broadcast又可以建立某种Index数据的慢查询提供了一种优化思路。

参考链接

[1]https://docs.databricks.com/delta/join-performance/range-join.html

[2]https://issues.apache.org/jira/browse/SPARK-8682

[3]https://www.pilosa.com/blog/range-encoded-bitmaps/

[4]https://www.vertica.com/docs/9.2.x/HTML/Content/Authoring/AnalyzingData/Queries/Joins/RangeJoins.htm

[5]https://link.springer.com/article/10.1007/s00778-021-00692-3

猜你喜欢
Spark SQL知识点与实战
Hive计算最大连续登陆天数
Hadoop 数据迁移用法详解
数仓建模—宽表的设计
数仓建模分层理论
Flink 是如何统一批流引擎的

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Spark Streaming 和 Flink 都是流处理框架,但在一些方面有所不同。 1. 数据处理模型 Spark Streaming 基于批处理模型,将流数据分成一批批进行处理。而 Flink 则是基于流处理模型,可以实时处理数据流。 2. 窗口处理 Spark Streaming 的窗口处理是基于时间的,即将一段时间内的数据作为一个窗口进行处理。而 Flink 的窗口处理可以基于时间和数据量,可以更加灵活地进行窗口处理。 3. 状态管理 Spark Streaming 的状态管理是基于 RDD 的,需要将状态存储在内存中。而 Flink 的状态管理是基于内存和磁盘的,可以更加灵活地管理状态。 4. 容错性 Flink 的容错性比 Spark Streaming 更加强大,可以在节点故障时快速恢复,而 Spark Streaming 则需要重新计算整个批次的数据。 总的来说,Flink 在流处理方面更加强大和灵活,而 Spark Streaming 则更适合批处理和数据仓库等场景。 ### 回答2: Spark Streaming 和 Flink 都是流处理框架,它们都支持低延迟的流处理和高吞吐量的批处理。但是,它们在处理数据流的方式和性能上有许多不同之处。下面是它们的详细比较: 1. 处理模型 Spark Streaming 采用离散化流处理模型(DPM),将长周期的数据流划分为离散化的小批量,每个批次的数据被存储在 RDD 中进行处理,因此 Spark Streaming 具有较好的容错性和可靠性。而 Flink 采用连续流处理模型(CPM),能够在其流处理过程中进行事件时间处理和状态管理,因此 Flink 更适合处理需要精确时间戳和状态管理的应用场景。 2. 数据延迟 Spark Streaming 在处理数据流时会有一定的延迟,主要是由于对数据进行缓存和离散化处理的原因。而 Flink 的数据延迟比 Spark Streaming 更低,因为 Flink 的数据处理和计算过程是实时进行的,不需要缓存和离散化处理。 3. 机器资源和负载均衡 Spark Streaming 采用了 Spark 的机器资源调度和负载均衡机制,它们之间具有相同的容错和资源管理特性。而 Flink 使用 Yarn 和 Mesos 等分布式计算框架进行机器资源调度和负载均衡,因此 Flink 在大规模集群上的性能表现更好。 4. 数据窗口处理 Spark Streaming 提供了滑动、翻转和窗口操作等灵活的数据窗口处理功能,可以使用户更好地控制数据处理的逻辑。而 Flink 也提供了滚动窗口和滑动窗口处理功能,但相对于 Spark Streaming 更加灵活,可以在事件时间和处理时间上进行窗口处理,并且支持增量聚合和全量聚合两种方式。 5. 集成生态系统 Spark Streaming 作为 Apache Spark 的一部分,可以充分利用 Spark 的分布式计算和批处理生态系统,并且支持许多不同类型的数据源,包括Kafka、Flume和HDFS等。而 Flink 提供了完整的流处理生态系统,包括流SQL查询、流机器学习和流图形处理等功能,能够灵活地适应不同的业务场景。 总之,Spark Streaming 和 Flink 都是出色的流处理框架,在不同的场景下都能够发挥出很好的性能。选择哪种框架取决于实际需求和业务场景。 ### 回答3: Spark Streaming和Flink都是流处理引擎,但它们的设计和实现方式有所不同。在下面的对比中,我们将比较这两种流处理引擎的主要特点和差异。 1. 处理模型 Spark Streaming采用离散流处理模型,即将数据按时间间隔分割成一批一批数据进行处理。这种方式可以使得Spark Streaming具有高吞吐量和低延迟,但也会导致数据处理的粒度比较粗,难以应对大量实时事件的高吞吐量。 相比之下,Flink采用连续流处理模型,即数据的处理是连续的、实时的。与Spark Streaming不同,Flink的流处理引擎能够应对各种不同的实时场景。Flink的实时流处理能力更强,因此在某些特定的场景下,它的性能可能比Spark Streaming更好。 2. 窗口计算 Spark Streaming内置了许多的窗口计算支持,如滑动窗口、滚动窗口,但支持的窗口计算的灵活性较低,只适合于一些简单的窗口计算。而Flink的窗口计算支持非常灵活,可以支持任意窗口大小或滑动跨度。 3. 数据库支持 在处理大数据时,存储和读取数据是非常重要的。Spark Streaming通常使用HDFS作为其数据存储底层的系统。而Flink支持许多不同的数据存储形式,包括HDFS,以及许多其他开源和商业的数据存储,如Kafka、Cassandra和Elasticsearch等。 4. 处理性能 Spark Streaming的性能比Flink慢一些,尤其是在特定的情况下,例如在处理高吞吐量的数据时,在某些情况下可能受制于分批处理的架构。Flink通过其流处理模型和不同的调度器和优化器来支持更高效的实时数据处理。 5. 生态系统 Spark有着庞大的生态系统,具有成熟的ML库、图处理库、SQL框架等等。而Flink的生态系统相对较小,但它正在不断地发展壮大。 6. 规模性 Spark Streaming适用于规模小且不太复杂的项目。而Flink可扩展性更好,适用于更大、更复杂的项目。Flink也可以处理无限制的数据流。 综上所述,Spark Streaming和Flink都是流处理引擎,它们有各自的优缺点。在选择使用哪一个流处理引擎时,需要根据实际业务场景和需求进行选择。如果你的业务场景较为复杂,需要处理海量数据并且需要比较灵活的窗口计算支持,那么Flink可能是更好的选择;如果你只需要简单的流处理和一些通用的窗口计算,Spark Streaming是更为简单的选择。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值