spark1.6.0+Hadoop2.6.0+Scala-2.11.7 搭建分布式集群

昨天又捣鼓了一下,网上有些写得很不错的教程,自己经过尝试后觉得需要整理一下。
spark的运行模式有多种(见官网和Spark的Standalone模式安装部署):

  • local(本地模式):常用于本地开发测试,本地还分为local单线程和local-cluster多线程;
  • standalone(集群模式):典型的Mater/slave模式,不过也能看出Master是有单点故障的;Spark支持ZooKeeper来实现 HA
  • on yarn(集群模式): 运行在 yarn 资源管理器框架之上,由 yarn 负责资源管理,Spark 负责任务调度和计算
  • on mesos(集群模式): 运行在 mesos 资源管理器框架之上,由 mesos 负责资源管理,Spark 负责任务调度和计算
  • on cloud(集群模式):比如 AWS 的 EC2,使用这个模式能很方便的访问 Amazon的 S3;Spark 支持多种分布式存储系统:HDFS 和 S3

本文主要记录的是基于standalone的方式和基于集群的方式。

1 用虚拟机搭建Hadoop分布式集群

虚拟机安装
由于主要的实验室环境是Ubuntu系统的服务器,内存大约为64G,使用的虚拟机为virtualbox,在官网下载,安装步骤略。注意,请用相同的用户名创建,这会为后面省去很多麻烦。
这里写图片描述
主从机互ping
随后将两个guest机配置成slave1和slave2,host机作为master,这里主要需要注意的是通信问题。
要让彼此都ping通,有一点小技巧,我是参照这个教程来做的。
https://2buntu.com/articles/1513/accessing-your-virtualbox-guest-from-your-host-os/
简言之,在默认NAT的模式下,guest是可以直接访问host的,也可以互相访问,但是host不能访问guest,不过通过添加host-only networks,再在guest端添加对应的适配器,host和guest就在同一个网段了。
将它们对应的ip都添加到各自的/etc/hosts文件中。
无密码登陆
在ping通后,我们希

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值