以下是在使用hadoop、spark的过程中,遇到的问题以及解决方法,没有系统的整理,后续会不断刷新。欢迎大家共享运用中的问题。
1.Spark应用结束后,资源释放慢
现象:在yarn-client模式下跑spark应用,当driver异常退出时,executor launcher进程没有退出,所占用资源没有释放,过10分钟后,由resource manager将其杀掉
原因:spark.akka.timeout参数默认是100s,设定akka的通信yarn.am.liveness-morritor.expiry-interval-ms
2.当datanode管理的block过大时,ipc心跳信息放不下
解决方法:修改配置项 ipc.maximum.data.length到NN的hdfs-site.xml中,64->128
3.当hdfs各个DN存储不均匀时,需要使用balance功能
dfs.datanode.balance.bandwidthpersec = 1GB 这个参数要看组网,如果是10G,可以调整为5G
dfs.datanode.datanode.max.transfer.threads = 8192
dfs.namenode,replication.max-streams = 20
dfs.namenode.handler.counte = 25
dfs.datanode.handler.counte = 20
dfs.datanode.balance.max.concurrent.moves = 30