spark程序运行缓慢

最新推荐文章于 2024-04-28 07:59:10 发布

kequanjade

最新推荐文章于 2024-04-28 07:59:10 发布

阅读量1.8k

点赞数

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/keyuquan/article/details/73379969

版权

spark 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

spark程序运行缓慢

原因一：在map ，reducebykey ,transform 等算子里进行耗时操作

耗时操作包括：读取配置文件，打印，读取数据库的数据对象

boolean local =ConfigurationManager.getBoolean(Constants.SPARK_LOCAL);

总结：在spark的算子中，只能执行对数据的处理逻辑，其间不要加载其他配置文件（读取配置文件），调用jvm的系统api(打印)等等

原因二：在算子中执行mysql 的select 操作 ,查询的数据库，没有索引（key）

当表的数据为100万的时候，没有索引的查询大概需要1秒钟，有索引的查询只需要0.001秒， 1000倍！所以需要查询的表，一定要建立索引

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

kequanjade

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

spark saveAsTable 太慢

Talk Is Cheap

01-17

1388

前面有个join，可能是join的两边重复的key太多了。

如何在Spark中使用Java？

最新发布

程序员光剑

08-16

376

1. 背景介绍 1.1 大数据时代的计算挑战随着互联网和物联网的快速发展，全球数据量呈爆炸式增长，传统的单机计算模式已经无法满足海量数据的处理需求。大数据技术的出现为解决这一挑战提供了新的思路，而Spark作为新一代大数据处理引擎，以其高效、易用、通用等特点，迅速成为业界主流选择。

参与评论您还未登录，请先登录后发表或查看评论

一次Spark程序运行缓慢原因排查

houpk999的博客

02-27

3943

功能：判断车辆轨迹数据在指定区域内停留时间超过半小时。实现思路：车辆定位数据生成RDD，遍历RDD每个元素，判断是否在指定区域内，如果在，则累加计算停留时间，最后判断停留时间是否超过半小时。代码： sortLocationInfoRDD.foreachPartition( new VoidFunction<Iterator<CarLo...

python写spark的效率问题_为什么我的 spark比纯 Python跑得慢？性能比较

weixin_39729262的博客

11-27

420

给新手点 spark。我尝试使用spark在我的 dataframe上执行一些pandas操作，但奇怪的是它比纯python慢（即在python中使用pandas包）。我是这样做的：1）train_df.filter(train_df.gender == '-unknown-').count()恢复结果大约需要30秒。但是使用python大约需要1秒钟。2） spark中：sqlContext.s...

Spark SQL 之 Join 实现

过往记忆大数据

09-25

437

Join作为SQL中一个重要语法特性，几乎所有稍微复杂一点的数据分析场景都离不开Join，如今Spark SQL(Dataset/DataFrame)已经成为Spark应...

Spark Scan大表时任务启动过慢分析

半日闲的博客

03-13

2235

问题背景测试SQL select asset_inout_ex['asset_inout_1c_sum_1'],dt from ASSET_INOUT_AMT a where dt&lt;20181119 and cust_code=0000000 order by dt limit 10000; 因为原始表中有456 个DT分区，所以DAG中是一个包含456个 HadoopRDD 的 Un...

【Spark深入学习 -14】Spark应用经验与程序调优

2401_84166376的博客

04-28

743

机器硬件（如磁盘的选择，SATA盘还是SAS盘，磁盘RAID方式等）、网络（千兆网卡还是万兆网卡，网络峰值期间的带宽、吞吐、网络延迟、网络抖动，很多时候网络问题导致各种莫名问题，举个真实的例子，公司网线被老鼠咬了，导致网络时而可以，时而不行，鬼知道是什么问题，让人抓狂）、操作系统（操作系统的稳定性，内核版本的选择，非常重要，还有一些配置策略得和hadoop生态吻合）。可以看出来，一共有2个stage，1个stage包含8个task，一个包含2个task，先跑8个的，再跑2个的，一个14秒，一个0.1秒。

java -jar 运行spark程序出现问题汇总及解决方案

03-16

问题3：程序运行缓慢或卡死解决方案：可能是由于数据量过大或程序逻辑问题导致的。可以尝试优化程序代码，增加集群资源，或者使用更高效的算法。问题4：程序报错或异常退出解决方案：根据错误信息进行排查，...

Spark Core：第二章执行spark程序

落落free的博客

05-02

712

Spark集群执行程序：计算圆周率文章目录Spark集群执行程序：计算圆周率一、Standalone模式1. Standalone-client 模式提交任务2. Standalone-cluster 模式提交任务3. Standalone-client 模式与Standalone-cluster 模式的对比二、Yarn模式1. Yarn-client 模式提交任务2. Yarn-cluste...

Spark性能优化：提高并行度、使用reduceByKey

weixin_34121282的博客

09-14

450

一、提高并行度实际上Spark集群的资源并不一定会被充分利用到，所以要尽量设置合理的并行度，来充分地利用集群的资源。才能充分提高Spark应用程序的性能。 Spark会自动设置以文件作为输入源的RDD的并行度，依据其大小，比如HDFS，就会给每一个block创建一个partition，也依据这个设置并行度。对于reduceByKey等会发生shuffle的操作，就使用并行度最大的父RDD的并行度...

Spark集群数据处理速度慢（数据本地化问题）

weixin_33729196的博客

01-18

661

SparkStreaming拉取Kafka中数据，处理后入库。整个流程速度很慢，除去代码中可优化的部分，也在spark集群中找原因。发现：集群在处理数据时存在移动数据与移动计算的区别，也有些其他叫法，如：数据本地化、计算本地化、任务本地化等。自己简单理解：假设集群有6个节点，来了一批数据共12条，数据被均匀的分布在了每个节点，也就是每个节点2条。现在要开始处理这些数据。　...

spark运行大数据任务比较慢，如何优化

nfzhlk的专栏

06-08

794

解决spark运行大数据量时速度慢的问题，可以用分区partition来解决

scala spark读取大文件csv太慢以及优化方案。

QAQ_666666的博客

11-27

3617

最近的业务场景中，spark要读取 1个30G的 csv文件，生成RDD后做运算，光这一个 parse 就用了1个半小时，太慢了，后来请大佬帮我优化，我们统计时间发现，spark 读取这个csv 竟然用了 30分钟，太慢了。而且后面跑运算的时候，一直是3个分区在跑，我们推测读取文件的时候 partition 少了。关于spark 优化，网上有很多，我这里只把我这次的优化记录下来，希望能帮助新人。老的读取csv，生成RDD的代码如下（这一部分读取文件生成RDD就用了30分钟）： val csv

利用spark UI 定位spark 运行慢的原因

程序认生

06-19

3035

spark性能

Spark 大表之间的join

u012450976的专栏

05-23

6225

最近在处理两份大表之间的join优化。表1 数据量是 8.1G 表2 数据量是 24.1G spark.sql.shuffle.partitions 800 5个Executor，每个Executor 10G内存，每个Executor CPU的cores是 4 制定了3中优化措施。 1:表2 直接 left join 表1. 2:表2 union 表1 ，然后groupBy ...

Spark+Cassandra优化

待定的专栏

06-04

1640

问题1：reduce task数目不合适解决方案：需要根据实际情况调整默认配置，调整方式是修改参数spark.default.parallelism。通常的，reduce数目设置为core数目的2-3倍。数量太大，造成很多小任务，增加启动任务的开销；数目太小，任务运行缓慢。所以要合理修改reduce的task数目即spark.default.parallelism 问题2：s

记一次Spark sql3.0任务耗时3小时优化到30分钟总结

u014034497的专栏

08-29

1424

任务A耗时最近从1个小时逐渐增长为3个小时，导致数据延迟。

Spark task过多导致任务运行过慢甚至超时

monkeyboy_tech的博客

03-15

5942

背景以及现象本文基于 spark 3.1.2 设置spark.driver.memory=2g 在调试spark sql任务的时候，发现有几个任务产生了40多万个Task，而且任务长期运行不出来。分析运行此sql，可以得到如下的dag（我们只截取产生Task多的Stage），由此可以看到是scan的文件太大了（scan了日志文件半年的数据）。但是为什么这种情况下会导致任务运行很缓慢甚至会超时呢？找到driver端，用jstat -gcutil查看一下对应的gc情况(对应的内存都是调优完后的镜像

为什么你的Spark应用执行的慢并且失败 - 内存管理

大怀特的博客

11-09

2728

Spark应用依据计划执行时, 非常容易编写, 也非常容易懂. 然而, 当spark应用执行非常慢或失败时就变得非常难了. 有时一个好的调优可能因为数据变化或者数据布局变化或而失败, 有时应用程序在一开始时运行良好,但由于资源不足而变差. 有非常多这样的例子. 不仅了解Spark应用非常重要, 也需要了解底层运行时组件, 像磁盘利用率, 网络利用率,相互之前的竞争等等. 当应用出现不好的情况下,需要做出明智的决定. 在一系列文章, 我专注于最通用的原因,为什么Spark应用失败或执行的非常慢. 首要和.

IDEA中搭建与运行Spark程序详解

本文档详细介绍了如何在IntelliJ IDEA (IDEA) 环境中运行Spark程序，主要针对初学者。首先，用户需要安装和配置IDEA社区版，将其bin目录添加到系统路径中以便于调用命令行工具。接着，安装Scala插件是至关重要的步骤...