Spark1.0.0 的一些小经验

1:关于读取本地文件
使用spark-shell连接Spark集群,然后在运行应用程序中读取本地文件时,会经常碰上文件不存在的错误。
主要原因是由于:
spark-shell作为应用程序,是将提交作业给spark集群,然后spark集群分配到具体的worker来处理,worker在处理作业的时候会读取本地文件。这时候冲突就发生了,运行spark-shell的机器可能和运行worker的机器不是同一台,而文件是放在运行spark-shell的机器上,运行worker的机器上没有,就出现了上面的错误。
解决方法:
将文件复制到所有节点相同的目录上,或者将文件复制到worker相同的目录上(这个有点难度,要先看日志来判断, spark-shell 的一些小经验 - mmicky - mmicky 的博客)。

2:关于Core数量的设置
缺省的情况下,spark-shell会使用spark集群中的所有剩余的Core,但可以通过设置 -c 参数来指定使用的Core数量。这样就可以将多个spark-shell连接到spark集群上了。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值