问题场景:
学习大数据过程中很令人头疼的是搭建集群后集群配置的同步问题,之前我们常常修改好一个节点的配置文件后需要使用SCP指令挨个分发到各个节点,这是非常低效且繁琐的。
在这里分享一个利用远程同步工具rsync来实现高效一键分发的脚本。
rsync远程同步工具:
rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。
rsync和scp区别:用rsync做文件的复制要比scp的速度快,rsync只对差异文件做更新。scp是把所有文件都复制过去。
基本语法:
rsync -rvl $pdir/$fname $user@hadoop$host:$pdir/$fname
命令 选项参数 要拷贝的文件路径/名称 目的用户@主机:目的路径/名称
选项参数说明:
选项 | 功能 |
---|---|
-r | 递归 |
-v | 显示复制过程 |
-l | 拷贝符号连接 |
同步脚本:
创建以下脚本命名为xsync并添加其他用户使用权限:
#!/bin/bash
#1 获取输入参数个数,如果没有参数,直接退出
pcount=$#
if((pcount==0)); then
echo no args;
exit;
fi
#2 获取文件名称
p1=$1
fname=`basename $p1`
echo fname=$fname
#3 获取上级目录到绝对路径
pdir=`cd -P $(dirname $p1); pwd`
echo pdir=$pdir
#4 获取当前用户名称
user=`whoami`
#5 循环(假设100台主机)
for((host=1; host<100; host++)); do
echo ------------------- hadoop$host --------------
rsync -rvl $pdir/$fname $user@hadoop$host:$pdir
done
简单解释以下脚本的流程,调用脚本时需要传入文件名或文件夹名作为参数(可以是相对路径也可以是绝对路径),然后会按步骤提取文件名、绝对路径,最后使用rsync挨个同步到其他节点。
可以将所在目录放于环境变量中,每当需要集群整体同步某个文件夹时直接调用xsync dirxxx
即可。