生产环境spark sql实用tips

最新推荐文章于 2023-03-02 10:17:13 发布

diyicedaan

最新推荐文章于 2023-03-02 10:17:13 发布

阅读量635

点赞数 1

文章标签：大数据

本文链接：https://blog.csdn.net/diyicedaan/article/details/126259259

版权

1. 在数据分层的dws层中，由于指标和维度表关联较多，数据量较大，作业运行时间较慢；经过排查后发现禁用广播join 效率提升明显。

故结论1如下：

在大量数据或者在复杂的sql情况下，禁止broadcasthashjoin可以减少网络开销

spark.sql.autoBroadcastJoinThreshold =-1

2.作业中有大表关联时会出现如下错误

org.apache.spark.shuffle.FetchFailedException: failed to allocate 16777216 byte(s) of direct memory

具体原因是

同时拉取大量的shuffle block，导致netty自己控制的内存超过限制

解决方式是增加堆内内存

增加direct momery
conf.spark.executor.extraJavaOptions -XX:MaxDirectMemorySize=4096m

未完待续...

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

diyicedaan

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
生产环境spark sql实用tips

spark sql调优
复制链接

扫一扫

org.apache.spark.shuffle.FetchFailedException:Failed to connect to异常

煉心的博客

08-01

1万+

最近在做Spark的性能优化，测试使用不同CPU核数和内存对计算性能的影响，由于是在测试集群进行测试的，硬件配置比生产上面的要少和低，遇到了不少的问题，其中一个值得说一下的就是org.apache.spark.shuffle.FetchFailedException:Failed to connect to /xxx:43301 1. 运行环境 1.1 硬件 3台服务器，分别

Spark Shuffle FetchFailedException 内存溢出源码级分析解决

Jax的博客

06-18

4308

某日遇到一个数据倾斜的SQL, 首先想到的方法就是加大Partition 看看数据hash 之后会不会落得均匀,所以就将spark.sql.shuffle.partitions从原来的500 加大到2700 . 结果反而失败了, 错误如下: FetchFailed(BlockManagerId(516, nfjd-hadoop02-node352.jpushoa.com, 7337, None), shuffleId=3, mapId=59, reduceId=917, message= org.apac

1 条评论您还未登录，请先登录后发表或查看评论

Spark程序运行常见错误解决方法以及优化

热门推荐

sdujava2011

11-12

2万+

一.org.apache.spark.shuffle.FetchFailedException 1.问题描述这种问题一般发生在有大量shuffle操作的时候,task不断的failed,然后又重执行，一直循环下去，非常的耗时。 2.报错提示 (1) missing output location org.apache.spark.shuffle.Metadata

Spark生产环境高效读写My SQL(df，rdd)

南风知我意

11-04

505

spark df生产环境下高效读写MySQL，以及常见问题排查思路

企业里使用最广泛的技术之一SparkSQL

luoyepiaoxue2014的博客

11-30

481

企业里使用最广泛的技术之一SparkSQL

实际生产环境下Spark一些简单功能的实现

Hello_World0825的博客

07-02

331

Spark一些简单功能的实现 1、批量改变列名 val frame = spark.createDataFrame(Seq(("zhangsan", 18, "nan"),("lisi",20,"nv"))).toDF("name", "age", "sex") val str = "name:name1" if(str == ""){ frame.show() }else{ val map: Map[String, String] = str.split(",").map(data =>

[spark 面试]yarn 生产环境下资源不足问题和网络的问题

无

09-02

2507

1、Yarn资源不足无法提交Spark的问题 2、Yarn-Client下网络流量的问题 ResourceManager会接收你的提交请求吗？Yarn一般把自己的资源分成不同的类型，我们接收的时候会专门提交到分配给Spark那一组资源，例如说此时资源信息如下：Memory 1000G，Cores 800个，此时你要提交的Spark应用程序可能需要900G的内存和700个Core，一定会没有...

Spark org.apache.spark.shuffle.FetchFailedException: Too large frame: xxxxxxxx

Deegue

08-24

1万+

报错如下： FetchFailed(BlockManagerId(92, hadoop1136.prod.2dfire.info, 7337, None), shuffleId=4, mapId=42, reduceId=42, message= org.apache.spark.shuffle.FetchFailedException: Too large frame: 2292863140...

Atlas Spark SQL血缘分析，Hive Hook

05-25

4. **执行Spark SQL操作**：当Spark SQL通过Hive接口执行DML（Data Manipulation Language）或DDL（Data Definition Language）操作时，Hive Hook会捕获这些操作的元数据变更。 5. **血缘信息收集和存储**：捕获的...

Spark Sql中时间字段少8个小时问题解决

02-28

### Spark SQL 中时间字段少8个小时问题解决 #### 问题背景在进行数据处理时，尤其是在涉及时间戳字段转换的过程中，经常会遇到时区问题。本文将详细探讨在使用Spark SQL处理Hive表中的时间戳字段时，遇到的时间...

spark sql解析-源码分析

03-16

Spark SQL是Apache Spark项目的一部分，它是处理SQL查询和数据集成的强大工具。Spark SQL结合了DataFrame API和传统的SQL接口，使得开发人员可以灵活地在结构化和半结构化数据上进行高性能计算。在这个源码分析中，...

Atlas Spark SQL血缘分析，HBASE

最新发布

05-25

Apache Atlas 是一个元数据管理框架，它为...总之，Apache Atlas Spark SQL血缘分析与HBase的结合，为大数据环境下的数据治理提供了强大的工具，实现了数据操作的透明度和可追溯性，提升了整体的数据管理效率和安全性。

Spark SQL操作大全.zip

03-24

《Spark SQL操作大全》 Spark SQL是Apache Spark项目的一个核心组件，它提供了处理结构化数据的强大功能，使得在大数据分析领域中，Spark SQL成为了一种不可或缺的工具。本资料主要涵盖了Spark SQL的基础概念、核心...

Learning Spark SQL epub

10-06

Learning Spark SQL 英文epub 本资源转载自网络，如有侵权，请联系上传者或csdn删除本资源转载自网络，如有侵权，请联系上传者或csdn删除

Atlas Spark SQL血缘分析

05-25

Atlas Spark SQL血缘分析，适配spark-3.2 / Atlas-2.3.0

Spark SQL参数调优指南

longlovefilm的博客

11-19

1万+

目录 1 运行行为 1.1 动态生成分区 1.2 broadcast join 使用hint强制做broadcastjoin： 1.3 动态资源分配 1.4 Shuflle相关 1.5 读ORC表优化 2 executor能力 2.1内存 2.2 executor并发度 2.3 executor读取hive表时单task处理数据量/无shuffle作业小文件合并 2.4 GC优化（使用较少，当尝试其他调优方法均无效时可尝试此方法） 3 driver指标： 3.1 内存 3.2

SparkSql 一张大表被广播问题排查

weixin_38148824的博客

03-02

1022

SparkSql 一张大表被广播

记一个Spark Excutor Dead问题解决过程(memory.TaskMemoryManager: Failed to allocate a page)

微步的博客

12-10

1万+

一、问题现象通过Spark UI查看Excutors，发现存在Excutor Dead的情况进一步查看dead Excutor stderr日志，发现如下报错信息 WARN memory.TaskMemoryManager: Failed to allocate a page (67108864 bytes), try again 二、解决过程打开GC日志...

Intel Spark SQL的自适应执行引擎优化

传统的Spark SQL在规划阶段确定了执行计划后，这个计划在整个执行过程中保持不变，而自适应执行则允许在运行时根据实际情况调整执行策略，以应对不同的工作负载和环境变化。挑战在于如何实现Spark SQL的高性能。一...