MooseFS安装及双机热备

MooseFS--分布式文件系统,它由4个部分组成:mastermetaloggechunkserverclient

Mastermfs的大脑,记录着管理信息,比如:文件大小,存储的位置,份数等,这些信息被记录到metadata.mfs中,当该文件被载入内核后,该文件会重命名为metadata.mfs.back,当chunkserver上有更新时,master会定期将获得的新的信息回写到metadata.mfs.back中,保证元数据的可靠。因为内存中需要将metadata.mfs加载进来,这个文件的大小取决于你在chunkserver上存储的数据量,所以需要较大的内存,一般8g内存可以存下2500w文件数,84g可以存下2亿文件数。所以需要master具有较大的内存硬件要求。

Metaloggermfs的备份,好比mysql中的主从备份结构。Metalogger会定期从master上将metadatachanglogsession类型的文件下载同步到本地目录下,并加后缀‘_mfs’将其重命名。

Chunkserver:数据存储地,文件以chunk大小存储,每个chunk最大为64M,小与64M的,该chunk大小为该文件大小,超过64M的文件将被均分,每一份(chunk)的大小以不超过64M为原则,文件可以有多份copy,这份copy会被随机存储到一台chunkserver上,当goal1时,表示只有一份copy,这份copy会被随机存储到一台chunkserver上,当goal值大于1时,每一份copy会被随机分别保存到其他的chunkserver上。一般官方建议goal值不超过3.这样如果有一台chunkserver宕机了,至少还有一份copy,当这台又被加进来后,会将失去的那份copy补回来,始终保持原有的copy数。Chunkserver上剩余存储空间要大于1gb,新的数据才会被允许写入,否则,你会看到no space left on device的提示,

Client::客户端通过内核加载的FUSE模块,再通过和master的沟通,将chunkserver共享的分区挂载到本地,然后进行读写操作。

wKiom1eDFi_jXV9WAALrJFM8BQQ785.png-wh_50

下面是mfs的读写原理:

wKiom1eDFlDDnwQCAACnE6_7gUQ877.png-wh_50

wKiom1eDFmCgP0i-AAD2O4H9pV4906.png-wh_50


#yum install -y rpm-build.x86_64

#cp mfs-1.6.27-5.tar.gz rpmbuild/SOURCES/

#cd  rpmbuild/SOURCE

#mv mfs-1.6.27-5.tar.gz mfs-1.6.27.tar.gz

# yum install -y fuse-devel zlib-devel  gcc

#rpmbuild -tb mfs-1.6.27.tar.gz

#cd  /root/rpmbuild/RPMS/x86_64

#yum install -y mfs-master-1.6.27-4.x86_64.rpm mfs-cgi-1.6.27-4.x86_64.rpm mfs-cgiserv-1.6.27-4.x86_64.rpm

#cd /etc/mfs/

#  cp mfsexports.cfg.dist mfsexports.cfg

#  cp mfsmaster.cfg.dist mfsmaster.cfg

#  cp mfstopology.cfg.dist mfstopology.cfg

#cd /var/lib/mfs

#cp metadata.mfs.empty metadata.mfs

#chown  nobody   .  -R

#cd  /usr/share/mfscgi/

#chmod  +x    *.cgi

#mfsmaster start            #启动 master server

wKiom1eDFpCR2ht-AAC5sd8CcXM515.png-wh_50

#mfscgiserv start        #启动 CGI 监控服务

#在浏览器地址栏输入 http://172.25.45.1:9425 即可查看 master 的运行情况

wKioL1eDHevQk0OgAADg9Xfayj8648.png-wh_50

Mfschunkserver服务器; (两台mfschunkserver进行同样的操作)

#yum install -y mfs-chunkserver-1.6.27-4.x86_64.rpm

#cd /etc/mfs/

#cp mfschunkserver.cfg.dist mfschunkserver.cfg

#cp mfshdd.cfg.dist  mfshdd.cfg

#mkdir /var/lib/mfs

#chown nobody  /var/lib/mfs

#vim mfshdd.cfg

/mnt/chunk

# mkdir chunk

#chown nobody chunk

#vim /etc/hosts  ---->需要解析mfsmaster ,在master主机名后面加上mfsmaster

#mfschunkserver start

FIREFOX中继续验证添加的存储块设备。

wKiom1eDHhjQo2CwAAFlxWg98KE267.png-wh_50

Client端:

#yum install -y mfs-client-1.6.27-4.x86_64.rpm

#cd /etc/mfs/

#cp mfsmount.cfg.dist mfsmount.cfg

#vim mfsmount.cfg        #定义客户端默认挂载

/mnt/mfs

#mkdir /mnt/mfs

#mfsmount

######MFS 测试,在 MFS 挂载点下创建两个目录,并设置其文件存储份数:

#cd /mnt/mfs/

#mkdir dir1 dir2

#cd dir2/

#mfssetgoal -r 2 .  

wKioL1eDHkiD8oiLAABal9mAsyU743.png-wh_50

#设置在 dir2 中文件存储份数为两个,默认是一个

对一个目录设定“goal”,此目录下的新创建文件和子目录均会继承此目录的设定,但不会改变已经存在的文件及目录的 copy 份数。但使用-r 选项可以更改已经存在的 copy 份数。

拷贝同一个文件到两个目录

# cp /etc/passwd dir1# cp /etc/passwd dir2

查看文件信息

# mfsfileinfo dir1/passwd

dir1/passwd:

chunk 0: 0000000000000001_00000001 / (id:1 ver:1)

copy 1: 172.25.45.2:9422

# mfsfileinfo dir2/passwd

dir2/passwd:

chunk 0: 0000000000000002_00000001 / (id:2 ver:1)

copy 1: 172.25.45.2:9422

copy 2: 172.25.45.3:9422

关闭 mfschunkserver2 后再查看文件信息

# mfsfileinfo dir1/passwd

dir1/passwd:

chunk 0: 0000000000000001_00000001 / (id:1 ver:1)

no valid copies !!!

# mfsfileinfo dir2/passwd

dir2/passwd:

chunk 0: 0000000000000002_00000001 / (id:2 ver:1)

copy 1: 172.25.45.2:9422

启动 mfschunkserver2 ,文件回复正常。

 

快照

MooseFS 系统的另一个特征是利用 mfsmakesnapshot 工具给文件或者是目录树做快照:

# mfsmakesnapshot source ... destination

Mfsmakesnapshot 是在一次执行中整合了一个或是一组文件的拷贝,而且任何修改这些文件的源文件都不会影响到源文件的快照, 就是说任何对源文件的操作,例如写入源文件,将不会修改副本(或反之亦然)

文件快照可以用 mfsappendchunks,例如:

# mfsappendchunks destination-file source-file ...

当有多个源文件时,它们的快照被加入到同一个目标文件中(每个 chunk 的最大量是 chunk)

master :

断网、杀掉 MFS master 服务对 MFS 系统无影响。断电可能会出现以下的情况:#当没有文件传输时,可在服务器重启之后,运行 mfsmetarestore –a 进行修复,之后执行mfsmaster start 恢复 master 服务。

 

COROSYNC+PACEMAKER解决mfsmaster单点故障。

使用pacemaker+corosync解决master单点故障:此时需要五台虚拟机:

Master   172.25.45.1

Master1172.25.45.5

Chunkserver1172.25.45.2

Chunkserver2172.25.45.3

Client172.25.45.4         +提供远程存储。

使用client提供ISCSI远程存储,故在client端:

# yum install -y scsi-target-utils.x86_64       #安装iscsi软件包

# vim /etc/tgt/targets.conf              #编辑主配置文件

<target iqn.2016-07.com.example:server.target3>

    backing-store /dev/vdb      # Becomes LU N 1

    write-cache off

    vendor_id MyCompany Inc.

    initiator-address 172.25.45.5   #只允许这两个Ip使用共享的存储设备。

    initiator-address 172.25.45.1

</target>

#/etc/init.d/tgtd    start    #开启远程存储设备。

在两个master上操作如下:首先两个master均需要装上mfsmaster,因此mfsmaster2需要按照mfsmaster1上那样的方法,先装好mfsmasdter。接下来,就是安装ISCSI客户端,使得发现共享设备,并且连接。连接上了过后在其中一台mfsmaster进行lvm并且格式化设备,再进行挂载。做测试,此次选择远程共享储存设备的主要原因是因为将mfsmaster的数据路径保存在共享设备里,使得一台master宕机过后,另外一台mfsmaster能够接管数据,解决mfsmaster单点故障问题。

#yum install -y iscsi-initiator-utils.x86_64

#iscsiadm -m discovery -t st -p 172.25.45.4

#iscsiadm  -m node -l      ###以上步骤两台mfsmaster均需要操作。

#fdisk /dev/sda     #制作为lvm

# mkfs.ext4 /dev/sda1      #格式化设备为ext4格式

#mount /dev/sda1 /mnt

#cp /var/lib/mfs/*  /mnt

#chown nobody /mnt/  -R

#######以上步骤只需要在其中一台mfsmastrer上操作就好了。

编写mfsmaster的启动脚本,因为pacemaker需要mfsmaster的启动脚本。

#vim mfsmaster     #mfsmaster启动脚本

#!/bin/bash

# Init file for the MooseFS master service

# chkconfig: - 92 84

# description: MooseFS master

# processname: mfsmaster

# Source function library.

# Source networking configuration.

. /etc/init.d/functions

. /etc/sysconfig/network

# Source initialization configuration.

# Check that networking is up.

[ "${NETWORKING}" == "no" ] && exit 0

[ -x "/usr/sbin/mfsmaster" ] || exit 1

[ -r "/etc/mfs/mfsmaster.cfg" ] || exit 1

[ -r "/etc/mfs/mfsexports.cfg" ] || exit 1

RETVAL=0

prog="mfsmaster"

datadir="/var/lib/mfs"

mfsbin="/usr/sbin/mfsmaster"

mfsrestore="/usr/sbin/mfsmetarestore"

start () {

echo -n $"Starting $prog: "

$mfsbin start >/dev/null 2>&1

if [ $? -ne 0 ];then

$mfsrestore -a >/dev/null 2>&1 && $mfsbin start >/dev/null 2>&1

fi

RETVAL=$?

echo return $RETVAL

}

stop () {

echo -n $"Stopping $prog: "

$mfsbin -s >/dev/null 2>&1 || killall -9 $prog #>/dev/null 2>&1

RETVAL=$?

echo

return $RETVAL

}

restart () {

stop

start

}

reload () {

echo -n $"reload $prog: "

$mfsbin reload >/dev/null 2>&1

RETVAL=$?

echo

return $RETVAL

}

restore () {

echo -n $"restore $prog: "

$mfsrestore -a >/dev/null 2>&1

RETVAL=$?

echo

return $RETVAL

}

case "$1" in

start)

start

;;

stop)

stop

;;

restart)

restart

;;

reload)

reload

;;

restore)

restore

;;

status)

status $prog

RETVAL=$?;;

*)

echo $"Usage: $0 {start|stop|restart|reload|restore|status}"

RETVAL=1

esac

exit $RETVAL

 

#cp mfsmaster  /etc/init.d/

#chmod +x /etc/init.d/mfsmaster

#/etc/init.d/mfsmaster  start  #做测试,看mfsmaster脚本能否启动mfsmaster服务。

#scp -p /etc/init.d/mfsmaster   root@172.25.45.5:/etc/init.d/

接下来采用corosync+pacemaker结构来解决单点故障问题。首先需要重新编辑yum源,之前普通的yum源无法下在corosync pacemaker ,同时资源管理器pacemaker还需要安装crmshpssh软件包,才能及进行资源管理。否则无法进行资源管理呢。

# yum install -y pacemaker corosync

#cp /etc/corosync/corosync.conf.example  /etc/corosync/corosync.conf

#vim  corosync.conf

# Please read the corosync.conf.5 manual page

compatibility: whitetank

 

totem {   

        version: 2    ##版本号,只能是2,不能修改

        secauth: off  ##安全认证,当使用aisexec时,会非常消耗CPU

        threads: 2  ##线程数,根据CPU个数和核心数确定

        interface {

                ringnumber: 0   ##冗余环号,节点有多个网卡是可定义对应网卡在一个环内

                bindnetaddr: 172.25.45.0  ##绑定心跳网段

                mcastaddr: 226.94.8.8  ##心跳组播地址

                mcastport: 5405  ##心跳组播使用端口

                ttl: 1

        }

}

logging {

        fileline: off   ##指定要打印的行

        to_stderr: no  ##是否发送到标准错误输出

        to_logfile: yes  ##记录到文件

        to_syslog: no  ##记录到syslog

        logfile: /var/log/cluster/corosync.log

        debug: off

        timestamp: on  ##是否打印时间戳,利于定位错误,但会消耗CPU

        logger_subsys {

                subsys: AMF

                debug: off

        }

}

amf {

        mode: disabled

}

service {

  ver:  0

  name: pacemaker        ##定义corosync启动时同时启动pacemaker

 }

#/etc/init.d/corosync  start

#yum install -y crmsh-1.2.6-0.rc2.2.1.x86_64.rpm pssh-2.3.1-2.1.x86_64.rpm

#scp corosync.conf root@172.25.45.5:/etc/corosync/    #另外mfsmaster需要进行同样的操作。这里不再一一赘述。

至此corosync+pacemaker已经安装并启动完毕,现在就是需要进行资源配置,使得当mfsmaster宕机时,另外一台能够及时接管。添加资源前需要弄懂,首先需要添加vip,然后再添加网络存储设备,最后添加mfsmaster的启动脚本.

因为没有装fence机制,当crm(live)configure# verify    ##检查当前配置语法,由于没有STONITH,所以报错,可关闭,所以需要crm(live)configure# property stonith-enabled=false   ##禁用stonith后再次检查配置,才能无报错

同时注意法定票数问题:

在双节点集群中,由于票数是偶数,当心跳出现问题(脑裂)时,两个节点都将达不到法定票数,默认quorum策略会关闭集群服务,为了避免这种情况,可以增加票数为奇数(如前文的增加ping节点),或者调整默认quorum策略为【ignore

此处选择调整默认quorum策略为【ignore】:crm(live)configure# property no-quorum-policy=ignore

接下来进行资源配置管理:

# crm

#crm(live)# status

crm(live)# configure

crm(live)configure# property stonith-enabled=false            #禁用Fence机制。

crm(live)configure# property no-quorum-policy=ignore   #调整默认quorum策略为ignore

crm(live)configure# primitive vip ocf:heartbeat:IPaddr2 params ip=172.25.45.100 cidr_netmask=32 op monitor interval=30s    #添加虚拟ip

crm(live)configure# primitive mfsdata ocf:heartbeat:Filesystem params device=/dev/sda1 directory=/var/lib/mfs    fstype=ext4     #添加存储文件系统

crm(live)configure# primitive mfsstart lsb:mfsmaster op monitor interval=30s   #添加mfsmaster启动脚本。

crm(live)configure# group mfsfilesys vip mfsdata mfsstart    #将这三个资源放入同一个组里面,使之能够运行在一个节点上。

crm(live)configure# show

wKioL1eDHoXTw_oRAADbzMzr0Jw632.png-wh_50

crm(live)configure#commit    #提交保存。

 crm(live)configure#bye      #退出资源管理器。

进行验证:此时资源均运行在mfsmaster1上,现在要将资源切换到mfsmaster2上,则进行如下操作,在mfsmaster2上进行:

#crm

crm(live)# node

crm(live)node# standby server1.example.com     #使mfsmaster做为备用节点。将资源切换到mfsmaster2上。

mfsmaster上进行crm_mon进行观看:

wKiom1eDHqShJDapAABA7z5plo0498.png-wh_50