hadoop
- 编写两个hadoop集群常用脚本:
- Hadoop集群启停脚本(包含HDFS,Yarn,Historyserver):myhadoop.sh
//进入用户目录下的bin目录: cd /home/gfs/bin //创建myhadoop.sh脚本文件 vim myhadoop.sh //输入以下内容 #!/bin/bash if [ $# -lt 1 ] then echo "No Args Input..." exit ; fi case $1 in "start") echo " =================== 启动 hadoop集群 ===================" echo " --------------- 启动 hdfs ---------------" ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/start-dfs.sh" echo " --------------- 启动 yarn ---------------" ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/start-yarn.sh" echo " --------------- 启动 historyserver ---------------" ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon start historyserver" ;; "stop") echo " =================== 关闭 hadoop集群 ===================" echo " --------------- 关闭 historyserver ---------------" ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon stop historyserver" echo " --------------- 关闭 yarn ---------------" ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/stop-yarn.sh" echo " --------------- 关闭 hdfs ---------------" ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/stop-dfs.sh" ;; *) echo "Input Args Error..." ;; esac //保存并退出,然后赋予脚本执行权限 chmod +x myhadoop.sh
- 查看三台服务器java进程脚本:jpsall
//进入用户目录下的bin目录: cd /home/gfs/bin //创建jpsall脚本文件 vim jpsall.sh //输入以下内容 #!/bin/bash for host in hadoop102 hadoop103 hadoop104 do echo =============== $host =============== ssh $host jps done //保存并退出,然后赋予脚本执行权限 chomd +x jpsall //分发/home/gfs/bin目录,保证自定义脚本在三台服务器上都可以使用 xsync /home/gfs/bin/
- 使用以上的脚本就可以一键启动三台服务器了。
spark
- 众所周知spark运行环境有三种,local模式,standalone模式,yarn模式。
local模式
- 所谓的Local 模式,就是不需要其他任何节点资源就可以在本地执行 Spark 代码的环境,一般用于教学,调试,演示等, 之前在 IDEA 中运行代码的环境我们称之为开发环境,不太一样。
- 启动local模式:bin/spark-shell
- 启动成功后,可以输入网址进行web UI监控页面访问:http://hadoop102:4040
- 提交应用:
bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master local[2] \ ./examples/jars/spark-examples_2.12-3.0.0.jar \ 10
——————————
standalone模式
-
local 本地模式毕竟只是用来进行练习演示的,真实工作中还是要将应用提交到对应的集群中去执行,这里我们来看看只使用 Spark 自身节点运行的集群模式,也就是我们所谓的独立部署(Standalone)模式。Spark 的 Standalone 模式体现了经典的master-slave 模式。集群规划:
hadoop02 hadoop03 hadoop04
spark Worker Master Worker Worker ——————
-
修改配置文件(自己去网上找)
-
启动集群:sbin/start-all.sh
________
-
查看Master资源监控web UI界面:http://hadoop102:8080
-
还可以配置高可用:很简单,自己去网上找
yarn模式
-
独立部署(Standalone)模式由 Spark 自身提供计算资源,无需其他框架提供资源。这种方式降低了和其他第三方资源框架的耦合性,独立性非常强。但是你也要记住,Spark 主要是计算框架,而不是资源调度框架,所以本身提供的资源调度并不是它的强项,所以还是和其他专业的资源调度框架集成会更靠谱一些。所以接下来我们来学习在强大的Yarn 环境下 Spark 是如何工作的(其实是因为在国内工作中,Yarn 使用的非常多)。
-
修改配置文件(自己去网上找)
-
本模式需要先启动HDFS和YARN集群
-
启动集群:sbin/start-all.sh
-
查看历史web UI界面:http://hadoop102:8088
zookeeper
- 安装,自己安装去
- 修改配置,自己去查
- zk集群启动停止脚本
//进入用户目录下的bin目录: cd /home/gfs/bin //创建zk.sh脚本文件 vim zk.sh //输入以下内容 #!/bin/bash case $1 in "start"){ for i in hadoop102 hadoop103 hadoop104 do echo ---------- zookeeper $i 启动 ------------ ssh $i "/opt/module/zookeeper-3.5.7/bin/zkServer.sh start" done };; "stop"){ for i in hadoop102 hadoop103 hadoop104 do echo ---------- zookeeper $i 停止 ------------ ssh $i "/opt/module/zookeeper-3.5.7/bin/zkServer.sh stop" done };; "status"){ for i in hadoop102 hadoop103 hadoop104 do echo ---------- zookeeper $i 状态 ------------ ssh $i "/opt/module/zookeeper-3.5.7/bin/zkServer.sh status" done };; esac //保存并退出,然后赋予脚本执行权限 chomd u+x zk.sh //分发/home/gfs/bin目录,保证自定义脚本在三台服务器上都可以使用 xsync /home/gfs/bin/ //启动 zk.sh start //停止 zk.sh stop
————————
hbase
- 安装
- 配置环境变量和修改配置文件
- 集群分发
- 单点启动
bin/hbase-daemon.sh start master bin/hbase-daemon.sh start regionserver
_____
-
群起和停止
bin/start-hbase.sh bin/stop-hbase.sh
——————
-
查看hbase的web UI界面:http://hadoop102:16010
-
可以配置高可用