一种新型的EC编码，LRC码，基于RS码的改进，特点介于RS和副本之间。

最新推荐文章于 2024-02-08 09:00:00 发布

百科全书学派

最新推荐文章于 2024-02-08 09:00:00 发布

阅读量4.3k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/load2006/article/details/9168177

版权

传统的Reed-Solomon编码有个缺点是，单个分片的数据丢失就需要读取多个数据分片就行数据修复。
例如10:6的RS码，前10个分片有一个分片数据丢失，那么需要先从其他的分片中至少读取10个分片数据才能计算出丢失的数据。

LRC（locally repairable codes）是基于RS编码改进，可以有效减少数据修复时的系统负载。

当然，在相同数据可靠性的情况下，LR占用的物理空间略大，比三副本方式还是小很多。

例如：
   计算10:6:2的LRC码，首先按照10:6的比例计算出RS码，得到chunk分片X1、X2、......X10、Y1、Y2、......Y6，
   然后取Z1=X1+X2+......+X5,Z2=X6+......+X10。
   X1、X2、......X10、Y1、Y2、......Y6、Z1、Z2就构成了（10:6:2）的LRC码。如果X1、X2、......X10中有一个分片出现数据丢失，那么只需要读取（前5个分片中的4个+Z1）或者（后5个分片中的4个+Z2），就可计算出丢失的分片。
   而传统的RS码则需要读取10个chunk分片。
   此时，LRC码可以节省二分之一的磁盘i/o和节点间的网络通信带宽。
LRC的数据可靠性低于RS高于副本，数据修复的性能低于副本高于RS，是一种折中的算法。

目前LRC编码算法在最新的Hadoop-HDFS中已经实现，由facebook贡献。

windows的azure是利用了类似的技术，微软称之为local reconstruton code。

当节点数量超过1000，单点故障是常态，系统需要大量的临时性的数据修复（很多时候节点是指暂时性离线，并不需要做持久性数据恢复），

因此LRC码在hadoop环境下的作用比较明显。

个人感觉，对规模几十个节点，功能只是存储的nas集群来说，LRC码的作用并没有这么大。

EMC的atmos和isilon中采用的还是传统的RS码。

百科全书学派

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

百科全书学派

博客等级

码龄19年

61
原创

18
点赞

52
收藏

20
粉丝

关注

私信

热门文章

分类专栏

最新评论

分布式文件系统里的EC和RS编解码的效率问题
百科全书学派: 以前有个同事做个EC的专利，好像有用到分裂法，还会用128位寄存器做一些并行运算，目前高级语言不支持，只能通过汇编。还听过一个新闻说有人用硬件走128位的纠删码，好久不研究了。
分布式文件系统里的EC和RS编解码的效率问题
东东是个胆小鬼: 8位采用乘法表， 16位采用对数表，更高位数域的乘法可以采用分裂表等方法减少内存消耗。速度总还是可以通过代码优化和算法来解决的
ceph的CRUSH算法
yanbingwei86: 您好最近在研究文件系统，看了您的文章，能否有时间交流一下？QQ：573934900，谢谢
kmalloc与vmalloc的区别
YoungerChina: TLB抖动、cache抖动，其本质很简单“频繁读进刷出”
一种新型的EC编码，LRC码，基于RS码的改进，特点介于RS和副本之间。
百科全书学派: 看过几篇论文，可以下到，大致了解了下原理和思想，具体的数学公式没有深究，呵呵： Face book:XORing elephants:novel erasure code for big data Microsoft:Erasure coding in windows azure storage University of Southern California：Local Reparable Codes

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。