Design Tradeoffs for Data Deduplication Performance in Backup Workloads

http://blog.csdn.net/lt2fish/article/details/48933829

[3]Design Tradeoffs for Data Deduplication Performance in Backup Workloads 
备份负载下的数据去重性能权衡 

Min Fu, Dan Feng, Yu Hua, Xubin He, Zuoning Chen, Wen Xia, Yucheng Zhang, Yujuan Tan. Design Tradeoffs for Data Deduplication Performance in Backup Workloads. In Proc. USENIX FAST, 2015.

Abstract:了解基本的设计决策,例如预取,取样的权衡,分解数据去重成N维参数空间.空间中每个点由多个参数组成,作为备份和恢复性能,内存占用,存储开销的权衡.然后提出一个通用框架评估不同去重策略.没有单个可以完美解决所有问题的策略,我们要做的就是在这些策略中间进行权衡,以获取最优性能.

1.Introduction: 

这里写图片描述

数据块处理流程:

  • SHA-1计算指纹
  • 在DRAM缓存中查找指纹
  • 如果找到,跳7,去重
  • 没有找到,就在HDD,指纹序列存储区查找
  • 如果上步找到,则预取到缓存
  • 否则,写磁盘,回到1
  • 完成去重

2.数据去重空间: 

这里写图片描述

(1)指纹序列 Fingerprint Index 
指纹是瓶颈,最简单的形式是键值存储区(Key-value Store),Key是指纹,Value是数据块(Trunks).指纹无法全部取到内存,根据备份数据流的布局性(Locality),采用指纹缓存(Fingerprint Cache),由此,指纹序列由两部分构成:键值区,指纹预取模型. 
精确去重与近似去重. 
物理局部性(Physical Locality):去重之后数据块序列,container 
逻辑局部性(Logical Locality):去重之前数据块序列,recipe
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值