Spark问题记录

最新推荐文章于 2022-03-14 13:45:45 发布

听见下雨的声音hb

最新推荐文章于 2022-03-14 13:45:45 发布

阅读量487

点赞数 1

分类专栏： spark

本文链接：https://blog.csdn.net/u010010664/article/details/83028361

版权

spark 专栏收录该内容

21 篇文章 0 订阅

订阅专栏

Q：执行sql写入本地文件时产生 java.lang.OutOfMemoryError: GC overhead limit exceeded

A：由于生成的文件过大，造成多个节点同时写入本地文件时内存溢出，发生GC

Q：读取文件时 org.apache.hadoop.ipc.RemoteException(java.io.IOException):---过多的IPC、RPC

A：由于读取的文件过大时，文件在ARCHIVE上存储，过多的网络IO导致程序异常

Q：org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory hdfs://ns/data/dev/20181207/sdk_2_0_1_hdfs_8089_kafka_2_20181207/filter already exists

A：yarn中有重试机制，在写入文件时如果发生重试，不会清除已有的目录，看问题需看第一个appattempt

Q：缓存在什么时候使用？采用什么级别？

A：在一个spark任务中多次重用RDD。persist() 为transformation算子, 不会立即执行，要写在action算子前面，不然会重复计算；数据量很大时 StorageLevel.MEMORY_AND_DISK_SER, 较小时 StorageLevel.MEMORY_AND_DISK, 使用unpersist()及时清理

Q：没有重写HadoopoutputStream的情况下，利用yarn提交，需要重试两次不便于观察spark-history

A：修改任务提交参数设置

//spark在yarn上运行设置的重试次数
spark.yarn.maxAppAttempts=1
//yarn设置的重试次数（spark任务中不用修改）
yarn.resourcemanager.am.max-attempts=2
//mapreduce在yarn上运行设置的重试次数（spark任务中不用修改）
mapreduce.am.max-attempts=1

听见下雨的声音hb

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark问题记录

Q：执行sql写入本地文件时产生java.lang.OutOfMemoryError: GC overhead limit exceededA：由于生成的文件过大，造成多个节点同时写入本地文件时内存溢出，发生GCQ：读取文件时 org.apache.hadoop.ipc.RemoteException(java.io.IOException):---过多的IPC、RPCA：由于读取的...
复制链接

扫一扫