TDH安装部署
安装文档:
https://www.warpcloud.cn/#/documents-support/docs?category=TDH&index=0
一、集群规划
hostname | ip | 节点 |
---|---|---|
tw-manager | 172.29.157.42 | manager节点 |
tw-node1 | 172.29.157.43 | node节点 |
tw-node2 | 172.29.157.44 | node节点 |
二、环境检查
集群系统必须是3台以上物理服务器组成,每台服务器必须具备以下最低配置:
-
2颗6核心或以上带超线程x86指令集CPU的服务器
# 查看操作系统信息 lsb_release -a # 查看CPU统计信息 lscpu # 查看CPU个数 cat /proc/cpuinfo| grep "physical id"| sort| uniq| wc -l # 查看CPU型号 cat /proc/cpuinfo | grep name | cut -f2 -d: | uniq -c # 查看每个物理CPU中core的个数(即核数) cat /proc/cpuinfo| grep "cpu cores"| uniq # 查看逻辑CPU的个数 cat /proc/cpuinfo| grep "processor"| wc -l
-
RUGBY以上内存
free -g
-
2个300GB以上的硬盘做RAID 1,作为系统盘
# 查看硬盘和分区分布 lsblk # 查看硬盘和分区的详细信息 fdisk -l
-
4个以上的300GB容量以上的 硬盘作为数据存放硬盘
-
2个千兆以上网卡
三、安装前准备
对docker分区进行格式化处理(三台服务器)
在Redhat/CentOS上,docker分区必须采用XFS格式,实现的步骤如下:
-
创建目录/var/lib/docker
mkdir -p /var/lib/docker
-
对分区进行XFS格式化
# 查看磁盘情况 fdisk -l fdisk /dev/vdb 输入m显示帮助信息 输入n,表示添加一个新的分区 选择分区类型 e extended # 扩展分区 p primary partition (1-4) # 主分区 选择磁盘大小 w # 保存分区设置 # 分区格式化 mkfs.xfs -f -n ftype=1 /dev/vdb1
-
挂载分区
mount /dev/vdb1 /var/lib/docker
-
进行验证,检查是否格式化成功
xfs_info /dev/vdb1 | grep ftype=1
如果该语句返回结果中有ftype=1字样,则说明格式化成功。
-
配置/etc/fstab
执行语句下述命令查看UUID:
blkid /dev/vdb1
将查到的UUID值添加在/etc/fstab中:
UUID=61606806-8209-4869-8d72-d16a8c5d6131 /var/lib/docker xfs defaults,uquota,pquota 0 0
-
修改主机名
hostnamectl set-hostname hostname
7.配置host /etc/hosts
四、关闭防火墙
关闭防火墙
systemctl stop firewalld
关闭防火墙自启
systemctl disable firewalld
查看防火墙状态
systemctl status firewalld
systemctl is-enabled firewalld
关闭 selinux,修改/etc/sysconfig/selinux:
SELINUX=disabled
配置生效
setenforce 0
上传安装包
# Manager安装包
MANAGER-Basic-Component-Transwarp-7.0.1910a-final.tar.gz
# TDH除Discover外所有产品的产品包
TDH-Image-Registry-Transwarp-6.0.1-final.tar.gz
# Discover产品包
TDH-Machine-Learning-Transwarp-6.2.1-final.tar.gz
五、安装Transwarp Manager
解压Transwarp Manager安装包。在安装包所在的服务器上运行以下命令:
# 解压出安装目录
tar xvzf <manager-install-pkg>
# 进入解压后的transwarp目录
cd transwarp
#执行install二进制文件
./install
六、集群配置管理
登录Transwarp Manage管理界面
http://tw-manager:8180/
七、问题解决
1、Tdh安装时底层会安装haproxy,且tdh的正常运行依赖haproxy的正常运行,如果haproxy运行失败 ,需要卸载haproxy并重新安装的话,需要确认下haproxy的配置文件使用的不是默认的/etc/haproxy/haproxy.cfg,而是/etc/tos/conf/haproxy.cfg:
卸载和安装命令:
# 卸载
yum erase -y haproxy
# 安装
yum install -y haproxy --disablerepo=os
指定配置文件方法:修改/usr/lib/systemd/system/haproxy.service,将配置文件改为/etc/tos/conf/haproxy.cfg)
2、服务监控页面经常报TOS运行异常:
TSO中DF Client和DF Master这两个角色,主要用于增强集群间通信,且这两个角色是比较吃服务器配置的,容易造成TOS异常。在配置不高的情况下,安装TSO时可以取消勾选这两个角色的安装。如果已经安装了,可以将这两个角色删除。
1、 备份 haproxy.service 文件
mv /usr/lib/systemd/system/haproxy.service /tmp/
2、重装 haproxy yum erase -y haproxy && yum install -y haproxy
3、把备份好的 haproxy.service 还原
mv -f /tmp/haproxy.service /usr/lib/systemd/system/haproxy.service
4、重启
haproxy systemctl daemon-reload && systemctl restart haproxy && systemctl enable haproxy
八、卸载
卸载脚本包含两个文件,已支持 RHEL/Centos、SUSE、KYLIN 和 UOS 操作系统,支持清理shiva和argodb;
l在manager节点执行chmod +x uninstall.sh (非root用户执行sudo chmod +x uninstall.sh)
然后执行sh uninstall.sh 开始卸载TDH
其内部执行流程是:uninstall.sh读取manager安装的节点和服务信息,将uninstall_community_agent_template.sh渲染成uninstall_community_agent_instance.sh,然后在agent节点上执行;
l因为manager节点需要到agent节点去执行uninstall_community_agent_instance.sh脚本,需要agent节点的密码,所以可以提前配置manager到agent节点的无秘钥登录。
注意:
使用该卸载脚本后如果再次安装TDH5.1.2以下版本请为docker手动分配磁盘分区;
经验证,该卸载脚本没有删除磁盘上存储的license相关数据,需要再手动删除下license相关数据:find / -name version-2, 可见以下license相关目录:/var/manager/zookeeper/version-2,/var/license/version-2,/var/zookeeper1/version-2。
uninstall.sh有如下参数可选:
–keepdata | 默认是false,不保留数据,如果想保留数据, uninstall.sh --keepdata=true |
---|---|
–nodes | 指定节点进行删除,用法是uninstall.sh --nodes=hostname1 |
–nopasswd | 指定使用无秘钥登录方式登录各节点进行卸载,uninstall.sh –nopasswd |
–user=* | 指定无秘钥登录用户名,如 uninstall.sh --nodes=transwarp |
–sshkey=* | 指定无秘钥登录的私钥文件,如uninstall.sh --sshkey=/etc/transwarp/transwarp-id_rsa |