公司开始搞分布式数据库了,接下来的时间正好有机会接触Hadoop,以前简单的以为Hadoop只是个简单的HDFS,现在才发现Hadoop包括HDFS/MapReduce,再加上Hbase。就有了cloud computing的基础。

   这两天就把之前做过的关于DataOntap和Celerra的dedup的实验贴出来,最近也就没时间研究其他东西了。

   DataOntap的文档中说它是SIS,即single instance stroage,即单实例存储,所以就是文件级的dedup。下面就来验证它到底是不是SIS?

1、看下现在存储(vol1)的容量,使用101MB

clip_p_w_picpath002[4]

 

2、101M只包括只有如下文件

p_w_picpath

3、现在增加2.exe(2.exe和1.exe是完全一样的文件)

p_w_picpath

4、可以看到由101MB增加到105MB

clip_p_w_picpath002[6]

5、开始做dedup,如果确如文档中所说它是SIS,那么容量应该会减少,至少不是现在的105M

DataOnTap2> sis status

No status entry found.

DataOnTap2> sis on /vol/vol1

SIS for "/vol/vol1" is enabled.

Already existing data could be processed by running "sis start -s /vol/vol1".

 

DataOnTap2> sis start -s /vol/vol1

The file system will be scanned to process existing data in /vol/vol1.

This operation may initialize related existing metafiles.

Are you sure you want to proceed (y/n)? y

The SIS operation for "/vol/vol1" is started.

 

DataOnTap2> Sat Oct 8 02:21:27 GMT [DataOnTap2: wafl.scan.start:info]: Starting SIS volume scan on volume vol1.

Sat Oct 8 02:21:52 GMT [DataOnTap2: wafl.snap.delete:info]: Snapshot copy sis.5d9cd2b6-e429-11e0-8fc5-005056a5000b on volume vol1 NetApp was deleted by the Data ONTAP function dense_delete_snapshot. The unique ID for this Snapshot copy is (1, 20964).

6、做完SIS后发现容量确实变成了102M

clip_p_w_picpath002[8]

从108404KB减少到104344KB

clip_p_w_picpath004

 

上面已经证明了DataOntap8确实是SIS,那么会不会是块级别或者是字节级别的dedup呢?为此,有了下面的实验

1、先上传wafl-overview.ppt,容量为103MB

 

p_w_picpath

2、再上传wafl-overview-2.ppt(wafl-overview-2.ppt比 wafl-overview.ppt多了2页),做dedup之前大小为103MB,105996KB

p_w_picpath 

clip_p_w_picpath002[10]

3、开始dedup,如果是block-level或byte-level的,那么大小应该经dedup后小于105996KB

DataOnTap2> sis start -s /vol/vol1

The file system will be scanned to process existing data in /vol/vol1.

This operation may initialize related existing metafiles.

Are you sure you want to proceed (y/n)? y 

The SIS operation for "/vol/vol1" is started.

DataOnTap2> Sat Oct 8 03:18:25 GMT [DataOnTap2: wafl.scan.start:info]: Starting SIS volume scan on volume vol1. 

DataOnTap2> Sat Oct 8 03:18:53 GMT [DataOnTap2: wafl.snap.delete:info]: Snapshot copy sis.5d9cd2b6-e429-11e0-8fc5-005056a5000b on volume vol1 NetApp was deleted by the Data ONTAP function dense_delete_snapshot. The unique ID for this Snapshot copy is (2, 20983).

4、经过dedup并没有改变

 

 

clip_p_w_picpath002[12]

 

  通过以上的实验说明,DataOntap8确实是file-level的SIS,并不是block-level或byte-level的。可能有人会有疑问:上面的2个PPT的实验文件太小,可能采用的block-level的技术,而文件大小没有达到block-level的block大小。但是据我所知,如果是block-level的,不管是定长还是不定长,都不会超过上面的412KB吧。所以只要是block-level的,它肯定会进行切分,并删除重复的部分。所以DataOntap8只是file-level的。

  下次把celerra的dedup实验贴出来。。。。。