Device Mapper的Snapshot技术

        使用Thin Provisioning的Snapshot技术可以给底层文件做一个快照,所有对快照的修改不会影响底层文件。

 

Thin Provisioning Snapshot 演示

1、首先,我们需要先建两个文件,一个是data.img,一个是meta.data.img:

~hchen$ sudo dd if=/dev/zero of=/tmp/data.img bs=1K count=1 seek=10M
1+0 records in
1+0 records out
1024 bytes (1.0 kB) copied, 0.000621428 s, 1.6 MB/s

~hchen$ sudo dd if=/dev/zero of=/tmp/meta.data.img bs=1K count=1 seek=1G
1+0 records in
1+0 records out
1024 bytes (1.0 kB) copied, 0.000140858 s, 7.3 MB/s

dd:用指定大小的块拷贝一个文件,并在拷贝的同时进行指定的转换。

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

1.if=文件名:输入文件名,缺省为标准输入。即指定源文件。<if=inputfile>

2.of=文件名:输出文件名,缺省为标准输出。即指定目的文件。< of=output file >

3.ibs=bytes:一次读入bytes个字节,即指定一个块大小为bytes个字节。

  obs=bytes:一次输出bytes个字节,即指定一个块大小为bytes个字节。

  bs=bytes:同时设置读入/输出的块大小为bytes个字节。

4.cbs=bytes:一次转换bytes个字节,即指定转换缓冲区大小。

5.skip=blocks:从输入文件开头跳过blocks个块后再开始复制。

6.seek=blocks:从输出文件开头跳过blocks个块后再开始复制。

  注意:通常只用当输出文件是磁盘或磁带时才有效,即备份到磁盘或磁带时才有效。

7.count=blocks:仅拷贝blocks个块,块大小等于ibs指定的字节数。

8.conv=conversion:用指定的参数转换文件。

  ascii:转换ebcdic为ascii

  ebcdic:转换ascii为ebcdic

  ibm:转换ascii为alternateebcdic

  block:把每一行转换为长度为cbs,不足部分用空格填充

  unblock:使每一行的长度都为cbs,不足部分用空格填充

  lcase:把大写字符转换为小写字符

  ucase:把小写字符转换为大写字符

  swab:交换输入的每对字节

  noerror:出错时不停止

  notrunc:不截短输出文件

  sync:将每个输入块填充到ibs个字节,不足部分用空(NUL)字符补齐。

/dev/zero:“零”设备,可以无限的提供空字符(0x00,ASCII代码NUL)。常用来生成一个特定大小的文件。

注意命令中seek选项,其表示为略过of选项指定的输出文件的前10G个 output的 bloksize 的空间后再写入内容。因为bs是1个字节,所以也就是10G的尺寸,但其实在硬盘上是没有占有空间的,占有空间只有1k的内容。当向其写入内容时,才会在硬盘上为其分配空间。我们可以用ls命令看一下,实际分配了12K和4K。

~hchen$ sudo ls -lsh /tmp/data.img
12K -rw-r--r--. 1 root root 11G Aug 25 23:01 /tmp/data.img

~hchen$ sudo ls -slh /tmp/meta.data.img
4.0K -rw-r--r--. 1 root root 101M Aug 25 23:17 /tmp/meta.data.img

2、然后,我们为这个文件创建一个loopback设备。(loop2015和loop2016是我乱取的两个名字)

~hchen$ sudo losetup /dev/loop2015 /tmp/data.img
~hchen$ sudo losetup /dev/loop2016 /tmp/meta.data.img

~hchen$ sudo losetup -a
/dev/loop2015: [64768]:103991768 (/tmp/data.img)
/dev/loop2016: [64768]:103991765 (/tmp/meta.data.img)

回环设备:允许用户以一个普通磁盘文件虚拟一个块设备。

3、现在,我们为这个设备建一个Thin Provisioning的Pool,用dmsetup命令:

~hchen$ sudo dmsetup create hchen-thin-pool \
       --table "0 20971522 thin-pool /dev/loop2016 /dev/loop2015 \
                           128 65536 1 skip_block_zeroing"

其中的参数解释如下:

  • dmsetup create是用来创建thin pool的命令
  • hchen-thin-pool 是自定义的一个pool名,不冲突就好。
  • –table是这个pool的参数设置
    。0代表起始的sector位置
    。20971522代表结束的sector号,前面说过,一个sector是512字节,所以,20971522个正好是10GB
    。/dev/loop2016是meta文件的设备(前面我们建好了)
    。/dev/loop2015是data文件的设备(前面我们建好了)
    。128是最小的可分配的sector数
    。65536是最少可用sector的water mark,也就是一个threshold
    。1 代表有一个附加参数
    。skip_block_zeroing是个附加参数,表示略过用0填充的块

然后,我们就可以看到一个Device Mapper的设备了:

~hchen$ sudo ll /dev/mapper/hchen-thin-pool
lrwxrwxrwx. 1 root root 7 Aug 25 23:24 /dev/mapper/hchen-thin-pool -> ../dm-4

4、接下来,我们的初始还没有完成,还要创建一个Thin Provisioning 的 Volume:

~hchen$ sudo dmsetup message /dev/mapper/hchen-thin-pool 0 "create_thin 0"
~hchen$ sudo dmsetup create hchen-thin-volumn-001 \
            --table "0 2097152 thin /dev/mapper/hchen-thin-pool 0"

其中:

  • 第一个命令中的create_thin是关键字,后面的0表示这个Volume的device 的 id
  • 第二个命令,是真正的为这个Volumn创建一个可以mount的设备,名字叫hchen-thin-volumn-001。2097152只有1GB

5、好了,在mount前,我们还要格式化一下:

~hchen$ sudo mkfs.ext4 /dev/mapper/hchen-thin-volumn-001
mke2fs 1.42.9 (28-Dec-2013)
Discarding device blocks: done
Filesystem label=
OS type: Linux
Block size=4096 (log=2)
Fragment size=4096 (log=2)
Stride=16 blocks, Stripe width=16 blocks
65536 inodes, 262144 blocks
13107 blocks (5.00%) reserved for the super user
First data block=0
Maximum filesystem blocks=268435456
8 block groups
32768 blocks per group, 32768 fragments per group
8192 inodes per group
Superblock backups stored on blocks:
32768, 98304, 163840, 229376

Allocating group tables: done
Writing inode tables: done
Creating journal (8192 blocks): done
Writing superblocks and filesystem accounting information: done

6、好了,我们可以mount了(下面的命令中,我还创建了一个文件):

~hchen$ sudo mkdir -p /mnt/base
~hchen$ sudo mount /dev/mapper/hchen-thin-volumn-001 /mnt/base
~hchen$ sudo echo "hello world, I am a base" > /mnt/base/id.txt
~hchen$ sudo cat /mnt/base/id.txt
hello world, I am a base

7、好了,接下来,我们来看看snapshot怎么搞:

~hchen$ sudo dmsetup message /dev/mapper/hchen-thin-pool 0 "create_snap 1 0"
~hchen$ sudo dmsetup create mysnap1 \
                   --table "0 2097152 thin /dev/mapper/hchen-thin-pool 1"

~hchen$ sudo ll /dev/mapper/mysnap1
lrwxrwxrwx. 1 root root 7 Aug 25 23:49 /dev/mapper/mysnap1 -> ../dm-5

上面的命令中:

  • 第一条命令是向hchen-thin-pool发一个create_snap的消息,后面跟两个id,第一个是新的dev id,第二个是要从哪个已有的dev id上做snapshot(0这个dev id是我们前面就创建了了)
  • 第二条命令是创建一个mysnap1的device,并可以被mount。

8、下面我们来看看:

~hchen$ sudo mkdir -p /mnt/mysnap1
~hchen$ sudo mount /dev/mapper/mysnap1 /mnt/mysnap1

~hchen$ sudo ll /mnt/mysnap1/
total 20-rw-r--r--. 1 root root 25 Aug 25 23:46 id.txt
drwx------. 2 root root 16384 Aug 25 23:43 lost+found

~hchen$ sudo cat /mnt/mysnap1/id.txt
hello world, I am a base

9、我们来修改一下/mnt/mysnap1/id.txt,并加上一个snap1.txt的文件:

~hchen$ sudo echo "I am snap1" >> /mnt/mysnap1/id.txt
~hchen$ sudo echo "I am snap1" > /mnt/mysnap1/snap1.txt

~hchen$ sudo cat /mnt/mysnap1/id.txt
hello world, I am a base
I am snap1

~hchen$ sudo cat /mnt/mysnap1/snap1.txt
I am snap1

10、我们再看一下/mnt/base,你会发现没有什么变化:

~hchen$ sudo ls /mnt/base
id.txt      lost+found
~hchen$ sudo cat /mnt/base/id.txt
hello world, I am a base

你是不是已经看到了分层镜像的样子了?

11、你还要吧继续在刚才的snapshot上再建一个snapshot:

~hchen$ sudo dmsetup message /dev/mapper/hchen-thin-pool 0 "create_snap 2 1"
~hchen$ sudo dmsetup create mysnap2 \
                   --table "0 2097152 thin /dev/mapper/hchen-thin-pool 2"

~hchen$ sudo ll /dev/mapper/mysnap2
lrwxrwxrwx. 1 root root 7 Aug 25 23:52 /dev/mapper/mysnap1 -> ../dm-7

~hchen$ sudo mkdir -p /mnt/mysnap2
~hchen$ sudo mount /dev/mapper/mysnap2 /mnt/mysnap2
~hchen$ sudo  ls /mnt/mysnap2
id.txt  lost+found  snap1.txt

好了,我相信你看到了分层镜像的样子了。

看完演示,我们再来补点理论知识吧:

  • Snapshot来自LVM(Logic Volumn Manager),它可以在不中断服务的情况下为某个device打一个快照。
  • Snapshot是Copy-On-Write的,也就是说,只有发生了修改,才会对对应的内存进行拷贝。

Docker 的 Device Mapper

上面基本上就是Docker的玩法了,我们可以看一下docker的loopback设备:

~hchen $ sudo losetup -a
/dev/loop0: [64768]:38050288 (/var/lib/docker/devicemapper/devicemapper/data)
/dev/loop1: [64768]:38050289 (/var/lib/docker/devicemapper/devicemapper/metadata)

其中data 100GB,metadata 2.0GB

~hchen $ sudo ls -alhs /var/lib/docker/devicemapper/devicemapper
506M -rw-------. 1 root root 100G Sep 10 20:15 data
1.1M -rw-------. 1 root root 2.0G Sep 10 20:15 metadata

下面是相关的thin-pool。其中,有个当一大串hash串的device是正在启动的容器:

~hchen $ sudo ll /dev/mapper/dock*
lrwxrwxrwx. 1 root root 7 Aug 25 07:57 /dev/mapper/docker-253:0-104108535-pool -> ../dm-2
lrwxrwxrwx. 1 root root 7 Aug 25 11:13 /dev/mapper/docker-253:0-104108535-
deefcd630a60aa5ad3e69249f58a68e717324be4258296653406ff062f605edf -> ../dm-3

我们可以看一下它的device id(Docker都把它们记下来了):

~hchen $ sudo cat /var/lib/docker/devicemapper/metadata/deefcd630a60aa5ad3e69249f58a68e717324be4258296653406ff062f605edf
{"device_id":24,"size":10737418240,"transaction_id":26,"initialized":false}

device_id是24,size是10737418240,除以512,就是20971520 个 sector,我们用这些信息来做个snapshot看看(注:我用了一个比较大的dev id – 1024):

~hchen$ sudo dmsetup message "/dev/mapper/docker-253:0-104108535-pool" 0 \                                    "create_snap 1024 24"
~hchen$ sudo dmsetup create dockersnap --table \                    
                    "0 20971520 thin /dev/mapper/docker-253:0-104108535-pool 1024"
~hchen$ sudo mkdir /mnt/docker
~hchen$ sudo mount /dev/mapper/dockersnap /mnt/docker/
~hchen$ sudo ls /mnt/docker/
id lost+found rootfs
~hchen$ sudo ls /mnt/docker/rootfs/
bin dev etc home lib lib64 lost+found media mnt opt proc root run sbin srv sys tmp usr var

我们在docker的容器里用findmnt命令也可以看到相关的mount的情况(因为太长,下面只是摘要):

# findmnt

TARGET                SOURCE               
/                 /dev/mapper/docker-253:0-104108535-deefcd630a60[/rootfs]
/etc/resolv.conf  /dev/mapper/centos-root[/var/lib/docker/containers/deefcd630a60/resolv.conf]
/etc/hostname     /dev/mapper/centos-root[/var/lib/docker/containers/deefcd630a60/hostname]
/etc/hosts        /dev/mapper/centos-root[/var/lib/docker/containers/deefcd630a60/hosts]

Device Mapper 行不行?

Thin Provisioning的文档中说,这还处在实验阶段,不要上Production.

There targets are very much still in the EXPERIMENTAL state.Please do not yet rely on them in production.

另外,Jeff Atwood在Twitter上发过这样的一推:

 

 

这个推指向的这个讨论中,其中指向了这个code diff,基本上就是说,DeviceMapper这种东西问题太多了,我们应该把其加入黑名单。Doker的Founder也这样回复到:

 


所以,如果你在使用loopback的devicemapper的话,当你的存储出现了问题后,正确的解决方案是:
rm -rf /var/lib/docker
 

原文链接:https://www.jianshu.com/p/01a938464bb6
 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值