分布式存储系统中的Data Scrubbing机理

Data Scrubbing是分布式存储系统中自动检测并修复数据错误的过程,与Data Cleaning主要区别在于检查标准和纠正行为。本文探讨了Data Scrubbing的起源、清理策略以及性能考虑,强调其在大规模存储系统中的重要性。
摘要由CSDN通过智能技术生成

前言


在大型的分布式存储系统内,当系统运行超过一段时间,个别存储节点出现数据块的损坏是再常见不过的事情了。这时候从系统层面,它最好能够自动发现并从其它节点同步副本数据。我们称这个过程为Data Scrubbing(数据清理)过程。对于一套成熟的分布式系统而言,Data Scrubbing模块的作用不能被忽视。当数据错误只有等被用户应用程序读取发现错误时,那样的代价将远远高于系统提前发现并纠正这个错误的行为。本节笔者来聊聊分布式存储系统中Data Scrubbing的一般机理过程以及其注意事项。

Data Scrubbing Vs Data Cleaning


首先笔者要来解释极易被我们混淆的两个概念:Data Scrubbing和Data Cleaning。要用中文字来区分的话,前者可以解释为“数据清理”,后者为“数据清洗”。

上面的中文名词其实还是无法体现二者直接区别,根据维基百科对这2个概念的区分如下:

  • Data Scrubbing:一种对于内存数据或实际存储数据的周期性错误侦查以及矫正行为。检验错误的标准是通过计算数据的checksum来比较。
  • Data Cleaning:同样是一种数据错误矫正行为,当检测的依据标准来自于外部提供的标准数据记录,db等等信息。以此做根据,来修正(包括删除,修改,替换)原始数据。

上述的区分点用一句话概括就是二者对于“坏”数据的检测标准不同,以及对应造成的不同的数据矫正行为。

OK,搞清楚这2个概

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值