Spark内存溢出(决方法和优化)

# 可能会导致溢出的原因

1. map过程产生大量对象导致内存溢出

2.数据不平衡导致内存溢出

3.coalesce调用导致内存溢出

4.shuffle后内存溢出

5. standalone模式下资源分配不均匀导致内存溢出

6.在RDD中,共用对象能够减少OOM的情况

 

# 优化技巧

1.使用mapPartitions代替大部分map操作,或者连续使用的map操作

2.broadcast join和普通join

3.先filter在join

4.partitonBy优化

5.combineByKey的使用:

6.内存不足时的优化

7.在spark使用hbase的时候,spark和hbase搭建在同一个集群:

# 参数优化部分

8.spark.driver.memory (default 1g)

9.spark.rdd.compress (default false)

10.spark.serializer (default org.apache.spark.serializer.JavaSerializer )

11.spark.memory.storageFraction (default 0.5)

12.spark.locality.wait (default 3s)

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Spark内存溢出通常发生在大数据处理中,当你尝试使用Apache Spark进行计算时,如果任务所需的内存超出了Spark集群中可用内存的总量,就会发生内存溢出Spark的工作原理是基于内存计算模型,它将数据划分为小块( partitions)并在内存中进行操作,如果某个任务的分区或中间结果超过了内存限制,就可能导致内存溢出内存溢出可能由以下几个原因引起: 1. **数据量过大**:如果你的数据集比Spark的内存大得多,没有足够的内存来缓存整个数据集,会导致溢出。 2. **过度分区**:过多的分区可能会导致每个分区过大,占用过多内存。 3. **不合适的配置**:Spark的内存分配策略,如`spark.driver.memory`、`spark.executor.memory`等如果没有正确设置,可能导致内存不足。 4. **频繁的磁盘I/O**:如果任务倾向于频繁地从磁盘读取数据而不是利用内存,这也会增加内存压力。 5. **复杂的算法和数据结构**:某些算法可能在内存中产生大量的临时数据,如果没有有效的优化,也可能触发溢出。 解内存溢出方法包括: - **优化数据加载**:减少一次性加载的数据量,使用`takeSample`或`limit`来处理部分数据。 - **调整Spark配置**:增大内存限制,或者调整内存分配策略,比如使用`spark.storage.memoryFraction`来控制内存和磁盘的比例。 - **合并数据集**:合并小文件或使用更高效的存储格式(如Parquet或ORC)。 - **使用溢出策略**:例如`spark.storage.diskBlockCacheSize`,将部分数据放在磁盘上。 - **使用压缩**:对数据进行压缩可以减少内存占用。 - **代码优化**:查找并改进算法,减少不必要的中间结果和临时数据。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值