前期准备
终于到了spark了,前面我说过了hadoop中的Mapreduce计算框架有比较明显的短板。接下来我将用一些blog分享spark方面的一些我觉得重要的东西。
这次我们要安装spark
所以你的服务器上后者虚拟机上需要有以下环境
- JDK
- 配置SSH免密
当然为了能更方便还是建议大家在host文件中配置一下主机名和Ip的映射。
伪分布模式部署
- 首先我们下载spark的tar包,大家到官网就可以找到,然后上传到服务器上。
这里我也放在网盘上了
链接:https://pan.baidu.com/s/1_avLEAVL_Rlm4OaFf61kew
提取码:aahf
2. 解压。
解压之后进入spark的根目录。
接下来就要敲黑板划重点了:
- 修改conf文件目录下的配置文件
首先将spark-env.sh.template 修改名字为spark-env.sh
vi 进入
- 配置JAVA路径
export JAVA_HOME=你的JDK路径 - 配置主节点名称(伪分布就是当前操作的主机名)
export SPARK_MASTER_HOST=主机名
export SPARK_MASTER_PORT=7077 - 配置slaves,首先将slaves.template 改名字为slaves
配置从节点主机名
例如:node1(这是我的主机名) - 启动
进入sbin目录,
./start-all.sh 启动spark伪分布模式
注:可以从web dashBoard上查看,输入IP:8080,就可以查看。
停止的话使用stop-all.sh命令。
注:
spark有几种运行模式,这里我配置的是standalone,其他的模式后面我再做分享
全分布模型部署
其实全分布和伪分布部署的差别并不大,首先,我们将上面得到的spark目录全部拷贝到另外两个服务器或者虚拟机,用scp或者其他什么方式。然后修改conf配置:
只需要将slaves修改为slaver节点的主机名,
我配置了一个4台虚拟机的集群所以在slaves中写
node2
node3
node4
然后按照上述的方法启动就可以正常运行了。