Spark性能调优系列：(九)开发调优（优化数据结构）

最新推荐文章于 2023-07-31 14:37:08 发布

Mr Cao

最新推荐文章于 2023-07-31 14:37:08 发布

阅读量178

点赞数

分类专栏：大数据 spark 文章标签： Spark性能调优

本文链接：https://blog.csdn.net/qq1021979964/article/details/102842126

版权

大数据同时被 2 个专栏收录

61 篇文章 5 订阅

订阅专栏

spark

28 篇文章 3 订阅

订阅专栏

优化数据结构

Java中有三种类型比较耗费内存：

1.对象，每个Java对象都有对象头，引用等额外的信息，因此比较占用内存空间。
2.字符串，每个字符串内部都有一个字符数组以及长度等额外信息。
3.集合类型，比如HashMap、LinkedList等，因为集合类型内部通常会使用一些内部类来封装集合元素，比如Map.Entry。

Spark官方建议，在Spark编码实现中，特别是对于算子函数中的代码，尽量不要使用上诉三种数据结构，尽量使用字符串代替对象，使用原始类型(比如int、long)代替字符串，使用数组代替集合类型，这样尽可能减少内存占用，从而降低GC频率，提升性能。

建议：我们在实际开发中，要做到如上所述，并不容易。我们需要考虑代码可维护性，如果一个代码里面，完全没有抽象，全都是字符串的拼接，对于后面的代码维护和修改难度较大。
所以，应该考虑在适合的时候采取该优化方式，不用盲目使用优化方式。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Mr Cao

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Spark性能优化：优化数据结构

weixin_34037515的博客

09-13

如何优化数据结构？ 1、优先使用数组以及字符串，而不是集合类。也就是说，优先用array，而不是ArrayList、LinkedList、HashMap等集合。比如，有个List list = new ArrayList()，将其替换为int[] arr = new int[]。这样的话，array既比List少了额外信息的存储开销，还能使用原始数据类型（int）来存储数据，比List中用Int...

Spark优化-优化数据结构

u013939918的博客

03-09

441

优化数据结构 Java中，有三种类型比较耗费内存：对象，每个Java对象都有对象头、引用等额外的信息，因此比较占用内存空间。 字符串，每个字符串内部都有一个字符数组以及长度等额外信息。集合类型，比如HashMap、LinkedList等，因为集合类型内部通常会使用一些内部类来封装集合元素，比如Map.Entry。因此Spark官方建议，在Spark编码实现中

参与评论您还未登录，请先登录后发表或查看评论

Spark性能调优系列：Shuffle调优

Mr.Cao

12-03

604

Spark性能调优系列：Shuffle调优 shuffle 大部分的Spark作业性能主要是shuffle过程的消耗，shuffle是从Map Task输出到Reduce Task输入这段中间过程，Reduce Task需要从其它节点上的Map Task拉取结果数据，因此shuffle过程包含大量的磁盘IO，序列化，网络数据传输等操作。 Spark中常用算子中会触发shuffle操作的算子：...

Spark性能调优系列：Spark-JVM调优

Mr.Cao

12-27

780

Spark-JVM调优 Spark发生垃圾回收的原理 Spark任务运行时会在executor里面不断的创建对象，当JVM存不下对象时，会触发JVM的垃圾回收（GC => grabage Collector），垃圾回收就是把不需要的对象给清除。如果内存中数据量比较大，那么可能会频繁的发生GC，而GC操作本身比较耗费性能，如果还频繁发生，那么对Spark作业性能造成很大的影响。此...

Spark性能调优系列：Spark参数配置大全（官网资料）

Mr.Cao

12-18

3531

Spark参数配置大全 Spark提供了三个位置来配置系统 Spark属性控制大多数应用程序参数，可以使用SparkConf对象或Java系统属性来设置。通过conf/spark-env.sh每个节点上的脚本，环境变量可用于设置每台计算机的设置，例如IP地址。可以通过配置日志log4j.properties。 Spark属性 Spark属性控制大多数应用程序设置，并分别为每个应用...

（四）1：spark性能调优：基础篇

weixin_43930865的博客

04-27

419

本文作为Spark性能优化指南的基础篇，主要讲解开发调优以及资源调优。

Spark性能调优指南来了！

最新发布

笑看风云路的博客

07-31

3121

Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。Spark Core：实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(，简称RDD)的API定义。Spark SQL：是Spark用来操作结构化数据的程序包。通过Spark SQL，我们可以使用SQL或者版本的HQL来查询数据。Spark SQL支持多种数据源，比如Hive表、Parquet以及JSON等。本文首先讲解了Spark的底层的Shuffle。

Spark性能调优：开发调优

JohnSon

03-29

413

1、前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据

Spark性能优化：开发调优篇

在路上的专栏

03-08

215

spark性能调优的几大原则

09-26

为了提高Spark作业的执行效率，开发者需要掌握一系列性能调优的原则和技巧。本文将围绕“Spark性能调优的几大原则”这一主题，详细介绍八大核心原则及其应用场景。 #### 二、避免创建重复的RDD **原则概述：** 在...

【系统性能调优】：数据结构增长对系统性能的影响分析与调优

[【系统性能调优】：数据结构增长对系统性能的影响分析与调优](https://www.tingyun.com/wp-content/uploads/2024/01/%E5%9F%BA%E8%B0%831-6.png) # 1. 系统性能调优概述 ## 系统性能调优的重要性在现代IT行业，...

Hive on Spark性能调优：理解执行计划和优化查询

本文将重点介绍Hive on Spark，它是将Hive与Spark相结合的一种解决方案，能够充分发挥Hive和Spark各自的优势，实现高效的数据分析处理。 ## 1.2 背景在传统的Hive中，查询的执行引擎是MapReduce。然而，MapReduce...

spark性能调优(二):内存

nzbing的博客

03-03

1547

spark性能调优

Spark系列---SparkSQL(三)读取Txt文件、Json文件、Hive、Mysql数据源(Java、Scala版本)

Mr.Cao

10-31

8320

1.读取txt文件 scala版本 package com.kevin.scala.dataframe import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.SQLContext /** * 读取txt文件转成DataFrame形式操作 */ object DataFrameTx...

Flink部署后启动不成功错误

Mr.Cao

03-04

6512

案例：Flink1.9 启动Flink 查看jps发现没有启动 Master Slave 如果启动成功 Master应该有StandaloneSessionClusterEntrypoint Slave应该有TaskManagerRunner 查看启动日志异常日志 org.apache.flink.core.fs.UnsupportedFileS...

Spark系列---SparkSQL(二)读取txt文件转为DataFrame表的所有action(Java、Scala版本)

Mr.Cao

10-31

2930

该文章只附上代码案例，不进行讲解，需要了解的看以下文章 Spark系列---SparkSQL(一)介绍与使用 Spark系列---Spark算子RDD(Java、Scala版本) 读取txt文件转为DataFrame表的所有action scala版本 package com.kevin.scala.dataframe import org.apache.spark.{SparkCo...

Centos7搭建Hadoop HA完全分布式集群（6台机器）（内含hbase，hive，flume，kafka，spark，sqoop，phoenix，storm）

Mr.Cao

01-30

2774

目录 Centos7搭建Hadoop HA完全分布式集群（6台机器）（内含hbase，hive，flume，kafka，spark，sqoop，phoenix，storm）. 1 前期配置. 2 安装jdk 5 安装zookeeper 7 安装hadoop 8 启动集群. 17 安装hbase 21 安装hive 27 安装Flume 34 安装kafka 37 安装spar...

Hadoop---(2)MapReduce（分布式计算编程模型）

Mr.Cao

01-30

2605

2. MapReduce MapReduce：是一种分布式计算编程模型，由Google提出，主要用于搜索领域，解决海量数据的计算问题。 MR由两个阶段组成：MapReduce，用户只需要实现map()和reduce()两个函数几科实现分布式计算。这两个函数的形参是key，value对，表示函数的输入信息。 2.1MapReduce的构架主从结构：主节点，只有一个：Jo...

Spark开发调优：避免重复RDD与Lineage优化

1. **RDD Lineage设计**：RDD（Resilient Distributed Dataset）是Spark的核心数据结构，而RDD Lineage是指RDD通过一系列转换操作形成的血缘关系链。理解并合理设计RDD Lineage有助于减少不必要的数据复制和计算，...