spark常见问题

最新推荐文章于 2022-04-25 20:14:54 发布

空着这扇窗

最新推荐文章于 2022-04-25 20:14:54 发布

阅读量1.7k

点赞数 2

分类专栏： spark 文章标签： spark 数据 eclipse

本文链接：https://blog.csdn.net/qq_35233716/article/details/72725860

版权

本文列举了在使用Spark过程中遇到的各种问题，包括操作不支持、配置ZooKeeper、多Master配置、磁盘空间不足、内存限制、端口冲突、找不到Hadoop库、Derby数据库冲突、找不到hdfs集群名字、YARN运行错误、Executor丢失、内存不足、数据倾斜、Spark Streaming与Kafka整合问题、Windows环境下Hadoop配置问题以及HDFS目录权限问题。每个问题都提供了详细的解决办法。

摘要由CSDN通过智能技术生成

 
 1、Operation category READ is not supported in state standby 

 
      org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.ipc.StandbyException):  
 Operation category READ is not supported in state standby 

 
      此时请登录Hadoop的管理界面查看运行节点是否处于standby 

 
 如登录地址是： 

 
 http://192.168.50.221:50070/dfshealth.html#tab-overview 

 
      如果是，则不可在处于StandBy机器运行spark计算，因为该台机器为备分机器 

 
 2、配置spark.deploy.recoveryMode选项为ZOOKEEPER 

 
      如果不设置spark.deploy.recoveryMode的话，那么集群的所有运行数据在Master重启是都会丢失，可参考BlackHolePersistenceEngine的实现。 

 
 3、多Master如何配置 

 
 因为涉及到多个Master，所以对于应用程序的提交就有了一点变化，因为应用程序需要知道当前的Master的IP地址和端口。这种HA方案处理这种情况很简单，只需要在SparkContext指向一个Master列表就可以了，如spark://host1:port1,host2:port2,host3:port3，应用程序会轮询列表。

 
 4、No Space Left on the device（Shuffle临时文件过多） 

 
          由于Spark在计算的时候会将中间结果存储到/tmp目录，而目前linux又都支持tmpfs，其实就是将/tmp目录挂载到内存当中。 

 
 那么这里就存在一个问题，中间结果过多导致/tmp目录写满而出现如下错误 

 
 No Space Left on the device 

 
 解决办法 

 
 第一种：修改配置文件spark-env.sh,把临时文件引入到一个自定义的目录中去即可 

 
 export SPARK_LOCAL_DIRS=/home/utoken/datadir/spark/tmp 

 
 第二种：偷懒方式，针对tmp目录不启用tmpfs,直接修改/etc/fstab 

 
 5、java.lang.OutOfMemory, unable to create new native thread 

 
 Caused by: java.lang.OutOfMemoryError: unable to create new native thread 

 
 at java.lang.Thread.start0(Native Method) 

 
 at java.lang.Thread.start(Thread.java:640) 

 
 上面这段错误提示的本质是Linux操作系统无法创建更多进程，导致出错，并不是系统的内存不足。因此要解决这个问题需要修改Linux允许创建更多的进程，就需要修改Linux最大进程数。 

 
 [utoken@nn1 ~]$ulimit -a 

 
 临时修改允许打开的最大进程数 

 
 [utoken@nn1 ~]$ulimit -u 65535 

 
 临时修改允许打开的文件句柄 

 
 [utoken@nn1 ~]$ulimit -n 65535 

 
 永久修改Linux最大进程数量 

 
 [utoken@nn1 ~]$ vim /etc/security/limits.d/90-nproc.conf 

 
 *          soft    nproc     60000 

 
 root       soft    nproc     unlimited 

 
 永久修改用户打开文件的最大句柄数，该值默认1024，一般都会不够，常见错误就是not open file 

 
 [utoken@nn1 ~]$ vim /etc/security/limits.conf 

 
 bdata  soft    nofile  65536 

 
 bdata  hard    nofile  65536 

 
 6、Worker节点中的work目录占用许多磁盘空间 

 
 目录地址：/home/utoken/software/spark-1.3.0-bin-hadoop2.4/work 

 
 这些是Driver上传到worker的文件，需要定时做手工清理，否则会占用许多磁盘空间 
   

 
 7、spark-shell提交Spark Application如何解决依赖库 

最低0.47元/天解锁文章

空着这扇窗

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录