Spark 开发过程当中遇到的若干大坑(持续更新中......)

先说背景:

3台服务器,hadoop, hbase, spark都是集群环境,都建在这3台服务器上。

计划用driver的方式,远程执行spark application。

坑1:开发用的是ubuntu虚拟机,自动生成的ip地址,跟服务器集群不在一个网段上,导致服务器集群无法正常和driver通信,之后把虚拟机网络设置为桥接模式,done!

坑2:关于setJars,大部分的资料包括apache官方的资料,都是基于spark submit或者是shell方式给出的例子,根本没提到setJars什么事,导致出现各种各样的莫名其妙的问题,后来才知道需要用setJars把driver的jar包给到spark cluster,done!

坑3:还是关于setJars,由于需要访问hbase,所以引入了hbase的jar包,最初以为把jar包放到lib当中,包含在driver的jar当中即可,后来发现不行,需要单独的把以来的jar包给过去,done!(能不能在spark的环境变量当中,设置一下依赖的外部jar包?尝试了SPARK_CLASSPATH,发现不行,不知道有什么其他的办法。)

坑4:额~~~,还是关于setJars,使用saveAsHadoopDataset直接把RDD存到hbase当中,代码看我之前的帖子,启动输出一些日志之后,日志就不动了!各种找问题,到处发帖子求助!没人搭理!最后自己把spark日志等级调到debug,发现了sockettimeoutexception,又发现是连接的10620端口,怀疑端口占用,就把region server port改成了别的,错误依旧。无奈去吃饭,吃完饭回来,spark经过n次的重试终于放弃,然后给出了一个错误日志,居然是缺少jar包。加了个metrics-core-2.2.0.jar,done!

转载于:https://my.oschina.net/dongtianxi/blog/738277

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值