spark 多线程删数据库数据,如何在Spark中并行化多个数据集？

最新推荐文章于 2024-02-25 11:16:40 发布

钮钴禄·缇

最新推荐文章于 2024-02-25 11:16:40 发布

阅读量58

点赞数

文章标签： spark 多线程删数据库数据

I have a Spark 2.1 job where I maintain multiple Dataset objects/RDD's that represent different queries over our underlying Hive/HDFS datastore. I've noticed that if I simply iterate over the List of Datasets, they execute one at a time. Each individual query operates in parallel, but I feel that we are not maximizing our resources by not running the different datasets in parallel as well.

There doesn't seem to be a lot out there regarding doing this, as most questions appear to be around parallelizing a single RDD or Dataset, not parallelizing multiple within the same job.

Is this inadvisable for some reason? Can I just use a executor service, thread pool, or futures to do this?

Thanks!

解决方案

Yes you can use multithreading in the driver code, but normally this does not increase performance, unless your queries operate on very skewed data and/or cannot be parallelized well enough to fully utilize the resources.

You can do something like that:

val datasets : Seq[Dataset[_]] = ???

datasets

.par // transform to parallel Seq

.foreach(ds => ds.write.saveAsTable(...)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

钮钴禄·缇

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark 多线程删数据库数据,如何在Spark中并行化多个数据集？

I have a Spark 2.1 job where I maintain multiple Dataset objects/RDD's that represent different queries over our underlying Hive/HDFS datastore. I've noticed that if I simply iterate over the List of...
复制链接

扫一扫

Spark 指定分区数、文件并行读写、Spark IO读写常用处理方法

Toby的博客

04-13

8679

一、小文件治理之合并分区数 1、配置spark.sql.shuffle.partitions，适用场景spark.sql()合并分区 spark.conf.set("spark.sql.shuffle.partitions", 5) #后面的数字是你希望的分区数这样配置后，通过spark.sql()执行后写出的数据分区数就是你要求的个数，如这里5。 2、配置coalesce(n)，适用场景spark写出数据到指定路径下合并分区 df = spark.sql(sql_string).co..

SparkSQL如何实现多数据源交互？这篇博客或许能告诉你答案!

大数据梦想家

04-12

8494

学了一段时间的SparkSQL，相信大家都已经知道了SparkSQL是一个相当强大的存在，它在一个项目的架构中扮演着离线数据处理的"角色"，相较于前面学过的HQL，SparkSQL能明显提高数据的处理效率。正因为如此，SparkSQL就会涉及到与多种的数据源进行一个交互的过程。那到底是如何交互的呢，下文或许能给你带来答案… &nb

参与评论您还未登录，请先登录后发表或查看评论

海量数据处理 - 10亿个数中找出最大的10000个数（top K问题）

永远飞翔的鸟

12-25

1010

教你如何迅速秒杀掉：99%的海量数据处理面试题 https://blog.csdn.net/v_july_v/article/details/7382693 十道海量数据处理面试题与十个方法大总结 https://blog.csdn.net/twlkyao/article/details/12037073 海量数据中找出出现次数最多的前10个URL（如何找出访问最多的I...

spark初学（四）- 连接数据库汇总

dc_123456的博客

05-22

372

连接的数据库为mongo：private SparkSession sparkSession() { StringBuffer mongoUrl = new StringBuffer("mongodb://" + username + ":" + password + "@"); String[] url = urls.split(","); for...

Spark 在一个sparksession中并行的执行多个Job

枪枪枪的博客

12-29

4126

对程序中设计的DataFrame、DataSet，将其分区数修改到一个合适的值，我这里用的是：当前环境下可用的CPU核数/并行数量。使用Callable或Runable类，重写类中的call方法或run方法，将要执行的job放入call或run方法中提交。在这个情景下，采取并行的方式同时处理n（假设n=5）个文件，能够更有效的利用服务器的资源。有两个独立的job A和B可以并行执行，按spark默认的方式A和B是顺序执行的。现有一个文件名构成的列表，要对列表内的文件进行一系列的处理后将数据写入数据库。

Spark大数据分析与实战笔记（第三章 Spark RDD 弹性分布式数据集-05）

想你依然心痛的博客

02-25

2万+

Spark的任务调度是指Spark集群中的任务如何被调度和执行。Spark的任务调度主要基于两个概念：DAG和RDD。DAG是有向无环图（Directed Acyclic Graph）的简称，用来描述Spark作业中的任务依赖关系。在Spark中，作业被划分为多个阶段（Stage），每个阶段包含一组可以并行执行的任务。阶段之间的依赖关系由DAG表示。DAG的每个节点代表一个RDD（Resilient Distributed Dataset），而边代表RDD之间的依赖关系。

Spark RDD弹性分布数据集详解

共勉

05-25

1452

RDD简介 RDD是Spark提供的最重要的抽象概念，我们可以将RDD理解为一个分布式存储在集群中的大型数据集合，不同RDD之间可以通过转换操作形成依赖关系实现管道化，从而避免了中间结果的I/O操作，提高数据处理的速度和性能。 RDD（Resilient Distributed Dataset），即弹性分布式数据集，是一个容错的、并行的数据结构，可以让用户显式地将数据存储到磁盘和内存中，并且还能控制数据的分区。 RDD创建方式方式一：从系统加载数据创建RDD Spark可以从Hadoop支持的任何存储源中

Spark大数据分析与实战笔记（第二章 Spark基础-03）

热门推荐

想你依然心痛的博客

01-04

3万+

然后，我们将通过实际的运行架构实例分析，来具体了解Spark在不同的集群模式下的运行架构和工作流程。Spark应用在集群.上运行时，包括了多个独立的进程,这些进程之间通过驱动程序(Driver Program)中的SparkContext对象进行协调，SparkContext对象能够与多种集群资源管理器(Cluster Manager)通信，一旦与集群资源管理器连接，Spark会为该应用在各个集群节点上申请执行器(Executor) ，用于执行计算任务和存储数据。

大数据Spark实战第三集处理结构化数据和Spark优化

fegus的博客

04-30

1143

如何处理结构化数据：DataFrame 、Dataet和Spark SQL 本课时我们来学习如何处理结构化数据：DataFrame、Dataset 和 Spark SQL。由于本课时是专栏的第 3 模块：Spark 高级编程的第 1 课，在开始今天的课程之前，首先对上一个模块进行一个总结。模块回顾在第 2 模块里，我们学习了 Spark 核心数据结构 RDD 和算子，以及 Spark 相关的一些底层原理。可以看到 RDD 将大数据集抽象为集合，这掩盖了分布式数据集的复杂性，而函数式编程风格的算子也能满足

大数据技术分享 Spark技术讲座 Apache Spark数据源V2 共103页.pdf

07-18

- 并发和分布式写入：多线程同时写入不同部分的数据，提高写入速度。 - 原子性写入：确保数据写入的一致性和完整性，避免部分写入导致的数据不一致问题。 - 结构化流支持：支持结构化流处理中的实时数据写入操作...

Python数据科学速查表 - Spark RDD 基础1

08-03

例如，`sc.parallelize()`函数用于创建RDD，如`rdd = sc.parallelize([('a',7),('a',2),('b',2)])`，它将列表转换为并行化的数据集。接着，RDD的操作包括转换和行动。转换函数如`map()`和`flatMap()`对RDD的每个...

大数据系列之并行计算引擎Spark介绍

01-27

它使用多线程池模型来加速Task启动，并在Shuffle过程中减少磁盘I/O，通过避免排序操作来提高整体性能。 Spark的易用性体现在其丰富的API支持，包括JAVA、Scala、Python和R，提供超过80个高级运算符，使得开发人员...

nanjin：在scala中探索kafka，spark和纯函数式编程

02-13

在这个名为"nanjin"的项目中，我们看到了一个深度探讨Scala编程、大数据处理以及消息队列系统的实践。项目涵盖了Kafka、Spark、以及纯函数式编程等关键领域，结合了一系列现代Scala库，如Cats、Akka、Shapeless等。...

高效的并行数据处理技术.pptx

05-23

1. **分布式文件系统**：通过将数据分散存储在多个物理节点上，不仅可以提高数据存储的容量和可靠性，还能通过并行化访问提升I/O吞吐量。此外，还提供了数据冗余和容错机制，确保数据的安全性。 2. **并行I/O**：...

Spark Dataset write to database的并发控制

weixin_40455124的博客

07-16

842

Spark 3 使用如下代码 df3.write().mode(SaveMode.Append).jdbc(url, "wordcount", dBWriteConOption2); 写入数据库的时候，spark实际认为是一个shuffle操作，因此可以通过参数 spark.sql.shuffle.partitions 来进行控制，如下面的代码 SparkConf sparkConf = new SparkConf().setAppName("JavaSparkJDBCSQL-REMOTE"); sp

QTQTQTQTQTQTQTQTQTQTQTQTQTQTQT