原有的环境已经有了。
现在要整理清楚,具体的步骤。
1.搭建Hadoop分布式集群
2.Spark安装和集群部署
3.测试Spark集群
步骤1详细: 搭建Hadoop分布式集群
为什么要首先部署Hadoop集群?--由于我们在Spark集群中会用到Hadoop集群的HDFS(Hadoop Distributed File System)文件系统,
所以在部署Spark集群之前要首先部署Hadoop集群。Hadoop框架中最核心的设计是HDFS[存储]和MapReduce【计算】,此处计算框架
用SPARK,但存储框架还是用Hadoop的HDFS文件系统。
二台机器,一台机器作为Master结点(主结点),另外一台作为Slaves结点(从结点)
Master---台式机 JDK 1.8.0_121-b13 amniominmi
Slaves---HP笔记本 JDK 1.8.0_73-b02 mz19m8912mz05m
1.1 为了简化权限等问题,需要以root用户的身份登录使用ubuntu系统.
1.2在两台机器上分别安装JDK,在命令终端查看JDK版本
cd /usr/lib/jvm/java
java -version
1.8.0_121-b13【台式机】 和 1.8.0_73-b02【笔记本】
1.3 配置SSH免密码登录
ifconfig linux查看本机IP地址
根据ip地址直接登录 ssh ip地址
/etc/init.d/ssh start /etc/init.d/ssh stop /etc/init.d/ssh restart
需要注意的,在进行相互通信的时候,服务器端的SSH一定要开,客户端的好像不要管
SSH登录了另外一台电脑,如何退出 exit
1.4 安装Hadoop和搭建Hadoop分布式集群
修改主机名, 配置主机名和IP对应关系 /etc/hosts
SparkMaster的配置文件 dfs中有name和data
配置SparkMaster的配置文件 etc是hadoop里面的etc
到此为止,基本全部实现,参考书籍为“Spark核心源码分析与开发实战”
启动HADOOP集群
sbin/start-all sh 或 sbin/start-dfs.sh 和 sbin/start-yarn.sh
关闭Hadoop集群也是在Master节点上执行:
sbin/stop-dfs.sh
sbin/stop-yarn.sh
步骤3详细: Spark安装和集群部署
spark-1.5.1 对应 scala-2.11.4
3.1 安装Scala
3.2 安装Spark
3.3 启动并测试集群的状况
在spark的sbin下启动 ./start-all.sh 关闭呢?./stop-all.sh
完全没问题!
进入spark的webUI页面: SparkMaster:8080
3.4测试 Spark集群
A 通过Spark提供的示例,测试成功 examples
B 通过Spark SHELL 测试Spark集群
草!!!!--------------
在我这命令是 hadoop fs -copyFromLocal README.md / 注意是/ 不是/data/ !!!!
可以看sparkmaster:50070 hadoop的HDFS 然后utilities下面的browse the file system
val rdd = sc.textFile("hdfs://SparkMaster:9000/README.md")
文件系统fs默认是 hdfs://SparkMaster:9000
-----------------------------------------------------------
4.25把上述过程再复现一次!---------没有问题!!!