使用Kryo对Spark进行序列化，内存调优

最新推荐文章于 2022-07-30 21:25:02 发布

阿啄debugIT

最新推荐文章于 2022-07-30 21:25:02 发布

阅读量474

点赞数

分类专栏： Java # spark kryo 文章标签：使用Kryo对Spark进行序列化，内存调优

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/as4589sd/article/details/103975097

版权

本文详细介绍了如何使用Kryo序列化技术优化Spark内存使用，包括Kryo的优势、如何注册及配置，以及内存调优的策略，如数据结构优化、缓存大小调整和垃圾回收器调优。同时，文中还提到了其他优化考虑，如并行级别、reduce任务内存管理和广播变量的使用。

摘要由CSDN通过智能技术生成

Spark是内存当中的计算框架，集群中的任何资源都会让它处于瓶颈，CPU、内存、网络带宽。通常，内存足够的情况之下，网络带宽是瓶颈，这时我们就需要进行一些调优，比如用一种序列化的方式来存储RDD来减少内存使用，这边文章就讲两种方式，数据序列化和内存调优，接下来我们会分几个主题来谈论这个调优问题。

1、数据序列化

（1） Spark默认是使用Java的ObjectOutputStream框架，它支持所有的继承于java.io.Serializable序列化,如果想要进行调优的话，可以通过继承java.io.Externalizable。这种格式比较大，而且速度慢。
（2）Spark还支持这种方式Kryo serialization，它的速度快，而且压缩比高于Java的序列化，但是它不支持所有的Serializable格式，并且需要在程序里面注册。它需要在实例化SparkContext之前进行注册，下面是它的使用例子：

import com.esotericsoftware.kryo.Kryo
import org.apache.spark.serializer.KryoRegistrator
class MyRegistrator extends KryoRegistrator { 
@override 
publice void registerClasses(kryo: Kryo) { 
kryo.register(classOf[MyClass1]) kryo.register(classOf[MyClass2]) 
} }
// Make sure to set these properties *before* creating a SparkContext!
System.setP

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

阿啄debugIT CSDN认证博客专家 CSDN认证企业博客

码龄13年

305: 原创

2万+: 周排名

6239: 总排名

43万+: 访问

: 等级

6500: 积分

2713: 粉丝

488: 获赞

294: 评论

1122: 收藏

私信

关注

热门文章

分类专栏

最新评论

还有比这java状态压缩更通俗易懂的解释？
CSDN-Ada助手: Java 技能树或许可以帮到你：https://edu.csdn.net/skill/java?utm_source=AI_act_java
springboot利用ThreadPoolTaskExecutor多线程批量插入百万级数据
java_代码搬运工: 一眼AI回答
springboot利用ThreadPoolTaskExecutor多线程批量插入百万级数据
阿啄debugIT: 多线程环境下的事务处理确实是一个复杂而关键的问题，因为它涉及到数据的一致性和完整性。以下是几种常见的解决多线程事务问题的方法：使用数据库的事务隔离级别：大多数关系型数据库都支持事务，并提供了不同的事务隔离级别（如读未提交、读已提交、可重复读、串行化）。选择合适的隔离级别可以在一定程度上减少多线程导致的数据不一致问题。乐观锁和悲观锁：悲观锁：在操作数据时总是假设最坏的情况，即数据会被其他线程修改，因此它会在数据处理开始时锁定数据，直到处理完成。这可以防止其他线程同时修改数据，但可能会降低并发性能。乐观锁：假设数据在大部分情况下不会被其他线程修改，因此在数据处理时不会锁定数据。但在数据提交更新时，会检查数据是否被其他线程修改过（通常通过版本号或时间戳来判断）。如果被修改过，则回滚事务；否则，提交事务。分布式锁：当事务跨越多个服务或资源时，可能需要使用分布式锁来确保数据的一致性。分布式锁可以确保同一时间只有一个线程或进程能够访问特定的资源或执行特定的操作。消息队列：使用消息队列（如Kafka、RabbitMQ等）可以解耦数据的生产和消费，从而在一定程度上减少多线程之间的直接竞争。生产者将数据发送到队列，消费者从队列中拉取数据并处理。这种方式可以确保数据的有序性和一致性。重试机制：在多线程环境中，可能会出现由于并发冲突导致事务失败的情况。此时，可以引入重试机制，在事务失败后等待一段时间再重新尝试执行事务。事务管理器：使用专门的事务管理器（如JTA/JTS）可以简化多线程环境下的事务管理。这些管理器提供了高级的并发控制和错误恢复机制，确保事务的原子性、一致性、隔离性和持久性。避免长时间持有锁：尽量减少锁的持有时间，避免在持有锁时进行耗时操作或等待其他资源。这可以减少死锁和性能下降的风险。监控和告警：实施有效的监控和告警机制，以便及时发现并解决多线程事务中可能出现的问题。具体选择哪种方法取决于应用的业务逻辑、性能要求以及所使用的技术栈。在实际应用中，可能还需要结合多种解决方案
springboot利用ThreadPoolTaskExecutor多线程批量插入百万级数据
java_代码搬运工: 多线程事物怎么解决的？
通过@伪列，计算在同一个mysql表中同一个用户，第一行时间与第二行时间比较，第二行时间与第三行时间比较……的sql语句，及补充mysql伪列和时间处理函数知识
CSDN-Ada助手: 多亏了你这篇博客, 解决了问题: https://ask.csdn.net/questions/8040477, 请多输出高质量博客, 帮助更多的人

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

阿啄debugIT 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。