USDP集群的其中2服务器意外宕机,其中包括一台USDP管理服务节点主机和工作节点主机,服务器重新启动后,USDP智能大数据平台无法登录,启动UDSP服务(/opt/usdp-srv/usdp/bin/start-udp-server.sh)后可以登录,但登录后在USDP智能大数据平台上启动或停止组件执行失败,报错如下:
再启动Agent服务(所有节点)(/opt/usdp-srv/usdp/bin/start-udp-agent.sh)后就可以正常启停组件了。
若后期再发生服务器意外宕机或其他原因需要重启集群及服务的情况,可以按照以下步骤操作:
1、USDP集群及组件关停
(1)需要先确保USDP服务和Agent服务(所有节点)是启动的才能停止组件,否则会报错,如果这两个不是启动的,需要先启动这2个服务,然后再停止组件
cd /opt/usdp-srv/usdp/bin/ #路径
./start-udp-server.sh #启动UDP服务
./start-udp-agent.sh #启动Agent服务
(2)在USDP智能大数据平台停止组件,组件停止顺序如下:
step1:先停止所有的调度类、可视化类、安全类组件
step2:再停止计算类组件:先停止Spark和Flink,再停止Hive和Tez,最后停止Yarn
step3:再停止存储类组件:先停止HBase和Kafka,再停止HDFS,最后停止Zookeeper
step4:最后停止监控类
(3)组件全部停止后,在服务器中关闭USDP和Agent服务
cd /opt/usdp-srv/usdp/bin/ #路径
./stop-udp-server.sh #关闭USDP服务
./stop-udp-agent.sh #关闭Agent服务
2、USDP集群及组件启动
(1)先查看NTP服务是否开启、集群服务器时间是否同步(会影响集群运行)
systemctl status ntpd #查看NTP服务状态
systemctl start ntpd #开启NTP服务
ntpdate -u 192.168.10.101 #与NTP服务器时间同步
date #查看服务器时间
(2)在服务器中启动USDP和Agent服务
cd /opt/usdp-srv/usdp/bin/ #路径
./start-udp-server.sh #启动UDP服务
./start-udp-agent.sh #启动Agent服务
(3)USDP服务启动后,登录USDP智能大数据平台启动组件,启动组件顺序如下:
step1:先启动监控类组件:5个全开
step2:再启动存储类组件:先启动Zookeeper!!!再启动HDFS,最后再启动HBase和Kafka
step3:再启动计算类组件:先启动Yarn,在启动Hive和Tez,Spark和Flink根据需要启动,启动Yarn之后再启动比较稳妥
step4:最后启动视化类、调度类、安全类组件(根据需要启动)
启动后查看各服务是否正常运行即可