日常用到的spark调优

最新推荐文章于 2022-01-12 09:54:08 发布

置顶 reddy_Hu

最新推荐文章于 2022-01-12 09:54:08 发布

阅读量212

点赞数

分类专栏：数仓文章标签：数据仓库

本文链接：https://blog.csdn.net/reddy_Hu/article/details/110632125

版权

数仓专栏收录该内容

2 篇文章 0 订阅

订阅专栏

日常用到的spark调优

1.如果使用spark读取mysql中的表格写进数仓中，可以先将限制条件或者整个sql先写进jdbc连接参数中。如果是将mysql整个表读入内存中再建立临时表，如果mysql的表过大，反而会占用更多内存，所以可以提前先将结果的数据读进来直接write进数仓中。

val callmysql = s" select '会议' as module,'正常通话率' as metrics_type,'ads_voip_sample' as original_table,avg(metrics) as metrics,isWorkDay,isBaidu as corpId,dat as data_dat from ads_voip_sample where orderParentTabFlag = '4' and callType = 'All' and deviceType = 'All' and metrics <= 1 and dat >='${args(0)}' and dat <= '${args(1)}' group by isWorkDay,isBaidu,dat"
val callLog = spark.read.jdbc(url, callmysql, prop)
callLog.write.insertinto("table_name")

2.为了减少小文件，可以从源头下手，将要插入数仓的数据提前将分区数量减少

    res.repartition(1).write.mode(SaveMode.Append).jdbc(url,"table_name",prop)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

reddy_Hu

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Spark 调优攻略上册

12-29

《Spark调优攻略上册》是一本专注于企业级大规模数据计算引擎Spark的调优指南，旨在帮助读者深入了解Spark的优化策略。该书不仅涵盖了Apache Spark的基础知识，还涉及了Data Lake和阿里云EMR团队研发的Jindo-Spark在...

【spark】七 DataFrame的repartition、partitionBy、coalesce区别

百物易用是苏生

05-15

1万+

环境：spark 2…3.1 python 2.7 问题：发现spark DataFrame.write 无论format(“csv”).save(hdfsPath)中是csv、parquet、json，或者使用write.csv() write.json()保存之后都是一个目录，下面生成很多个文件，只有设置分区为一个时，才能在目录下只有一个.success文件和一个分区数据文件（即小文件数据文...

参与评论您还未登录，请先登录后发表或查看评论

Spark分区 partition 详解

热门推荐

08-05

2万+

一、Spark数据分区方式简要在Spark中，RDD（Resilient Distributed Dataset）是其最基本的抽象数据集，其中每个RDD是由若干个Partition组成。在Job运行期间，参与运算的Partition数据分布在多台机器的内存当中。这里可将RDD看成一个非常大的数组，其中Partition是数组中的每个元素，并且这些元素分布在多台机器中。图一中，RDD1包含了5个Partition，RDD2包含了3个Partition，这些Partiti...

地表最强系列之浅谈Spark中的 repartition

qq_40375298的博客

03-15

3421

repartition 源码 /** * Return a new RDD that has exactly numPartitions partitions. * * Can increase or decrease the level of parallelism in this RDD. Internally, this uses * a shuffle to redistribute data. * * If you are decreasing the num

spark 大型项目实战(四十一):算子调优之使用repartition解决Spark SQL低并行度的性能问题

u012957549的博客

06-24

7815

并行度：之前说过，并行度是自己可以调节，或者说是设置的。 1、spark.default.parallelism 2、textFile()，传入第二个参数，指定partition数量（比较少用）咱们的项目代码中，没有设置并行度，实际上，在生产环境中，是最好自己设置一下的。官网有推荐的设置方式，你的spark-submit脚本中，会指定你的application总共要启动多少个executo...

【spark】存储数据到hdfs，自动判断合理分块数量（repartition和coalesce）（二）

lsr40的博客

12-20

2545

本人菜鸡一只，如果有说的不对的地方，还请批评指出！该系列暂有2篇文章（本文为第2篇）：【spark】存储数据到hdfs，自动判断合理分块数量（repartition和coalesce）（一）：https://blog.csdn.net/lsr40/article/details/84968923 【spark】存储数据到hdfs，自动判断合理分块数量（repartition和coa...

spark调优.rar

08-05

Spark调优是一个复杂而重要的过程，它涉及到多个层面，包括资源管理、内存配置、代码优化、数据 shuffle 及数据本地化等。以下是对这些关键知识点的详细解释： 1. **资源调优**：Spark运行在分布式环境中，资源管理...

Spark调优1

08-08

Spark调优是一个重要的主题，特别是在处理大规模数据时，优化Spark应用程序的性能对于提高工作效率和减少资源消耗至关重要。本文将深入探讨几个关键的调优策略，包括合理使用广播变量、选择正确的RDD持久化策略、...

大数据技术之Spark调优

最新发布

05-03

本文主要关注的是Spark SQL的调优，因为Spark SQL在Spark 3.0大版本中占据了核心地位，为其他子框架如Mllib、Streaming和Graph提供了性能优化的基础。首先，理解Spark SQL的执行计划至关重要。通过`explain`方法，...

Spark repartition

JH_Zhai的博客

01-12

834

https://www.dazhuanlan.com/zara329308/topics/1405081 在 Spark 的 Scala 版本的Dataset API 文档中，我们可以看到下列跟 repartition 有关的 API def repartition(numPartitions: Int): Dataset[T] def repartition(partitionExprs: Column*): Dataset[T] def repartition(numPartitions: Int,

【spark】存储数据到hdfs，自动判断合理分块数量（repartition和coalesce）（一）

lsr40的博客

12-13

6666

本人菜鸟一只，也处于学习阶段，如果有什么说错的地方还请大家批评指出！首先我想说明下该文章是干嘛的，该文章粗略介绍了hdfs存储数据文件块策略和spark的repartition、coalesce两个算子的区别，是为了下一篇文章的自动判断合理分块数做知识的铺垫，如果对于这部分知识已经了解，甚至精通的同学，可以直接跳到该系列的第二篇文章！背景： spark读取Hive表或者HDFS甚至各种框...

Spark 之重新设置分区的个数repartition()。

qq_29499107的博客

08-13

1万+

业务需求：有事我们从hdfs上用spark 进行处理，很有可能在hdfs 有多个block ,spark就会默认有多少个分区，在经过我们自己的逻辑计算后，得到的最后的结果数据并不是很大，同时想把它输出为一个文件，同理相反想把她输出为多个文件，这时 repartition( num ) 就可以解决： demo: scala> var a = sc.paralleli...

spark任务运行过程repartition和coalesce

寒夜

09-02

696

文章目录简介1. 不做任何干预的代码2. 使用repartition的方式调整partition的数量3. 使用coalesce 的方式调整partition的数量2. 默认情况job图1. job0 stage图1. stage0详情2. job1 stage图1. stage1详情3. job2 stage图1. stage2详情2. stage3详情4. job3 stage图1. stage4详情3. repartition job图1. job0 stage图2. job1 stage图3. jo

【Spark实战系列】spark 中 repartition 和 partitionBy 的源码分析

JasonLee实时计算

11-21

1万+

今天来介绍一下spark中两个常用的重分区算子,repartition 和 partitionBy 都是对数据进行重新分区，默认都是使用HashPartitioner，区别在于partitionBy 只能用于 PairRdd，但是当它们同时都用于 PairRdd时,效果也是不一样的,下面来看一个demo. package test import org.apache.log4j.{Leve...

Spark 指定分区数、文件并行读写、Spark IO读写常用处理方法

Toby的博客

04-13

8917

一、小文件治理之合并分区数 1、配置spark.sql.shuffle.partitions，适用场景spark.sql()合并分区 spark.conf.set("spark.sql.shuffle.partitions", 5) #后面的数字是你希望的分区数这样配置后，通过spark.sql()执行后写出的数据分区数就是你要求的个数，如这里5。 2、配置coalesce(n)，适用场景spark写出数据到指定路径下合并分区 df = spark.sql(sql_string).co..

spark 分区提交调优

jin6872115的博客

10-11

1973

转自：https://blog.csdn.net/u014384314/article/details/80797385 一 spark RDD分区原则在Spark的Rdd中，Rdd默认是分区的。有时候需要重新设置Rdd的分区数量，比如Rdd的分区中，Rdd分区比较多，但是每个Rdd的数据量比较小，则需要重新设置一个比较合理的分区数。或者需要把Rdd的分区数量调大。还有就是通过设置一个R...

spark离线数仓-hive on spark模式常见错误

efuns的博客

10-08

1196

本篇记录搭建spark离线数仓遇到的错误. 1.org.apache.hadoop.hive.ql.parse.SemanticException:Failed to get a spark session: org.apache.hadoop.hive.ql.metadata.HiveException: Failed to create Spark client for Spark session 01271ac4-3717-4f60-bf27-d2c5899c7ba0 ...

sparksql数仓遇到的问题

feiyuciuxun的博客

12-03

514

toDF().coalesce(1).write.mode(SaveMode.Append).insertInto("dwd.dwd_member_regtype") 使用insertInto时，要插入的数据顺序必须和已经简历好的表的字段顺序一样 saveAsTable没有上述要求，但是他不兼容hive，使用时，会删掉重新建 sparksql中有 first函数，而hive没有拉链表制作过...

spark使用insertInto存入hive分区表中

ZH519080的博客

08-01

5925

把spark的处理结果存入hive分区表中，可以直接在sql中设定分区即可，可以使用withColumn算子执行 ss.sql("SELECT merchant_id,platform," + "case when trim(first_channel_id) = '' or first_channel_id is null then '-1' else first_cha...

Facebook上的Spark调优实践

"Spark调优在facebook的实践" Apache Spark 是一个流行的大数据处理框架，尤其在处理大规模工作负载时表现出色。Facebook作为全球最大的社交媒体平台，每天需要处理大量的数据，因此对Spark进行优化至关重要。本...