大数据:数据分片和数据路由(一)

常见的数据分片有:哈希分片范围分片

用图进行分析,图画的实在是不咋地:

  

 


可以将上图看成是一个二级映射关系:

  第一级:key-partition映射:将数据记录映射到数据分片空间,特点:多对一的映射关系

  第二级:partition-machine映射:将数据分片映射到物理机器中 特点:多对一的映射关系

 


哈希分片和范围分片都可以映射到上面画的这个抽象模型中,哈希分片:采用 哈希函数来建立key-partition映射关系,支持 点查询(根据某条记录的主键可以获得记录内容),但是它无法支持范围查询。

范围分片:既支持点查询 ,也支持范围查询(指定记录的主键范围内一次读取多条满足条件的数据),向支持范围查询的系统就有 Google的BigTable 系统。


通过哈希函数来进行数据分片比较常见:其中最为常见的三种:

 

 

  1.Round Robin(哈希取模法)

                   H(key)=hash(key)mod K

    假设有k台物理机,对它进行编号 0到k-1,根据上面的hash函数 ,H(Key)的数值就是存储物理机的编号,将数据全部分配到 K 台物理机上,在查找的时候也可以通过这个函数来找打存储相应信息的物理机。

  优点:实现起来非常简单。

  缺点:缺乏灵活性。

 一旦新增一个物理机到分布式存储系统,此时哈希函数就变成了:

                  H(key)=hash(key)mod (K+1)

为什么缺乏灵活性:

  从上面的模型图中我们可以看到 Round robin 是将物理机和数据分片两个功能 合二为一了,这样造成的结果就是一个物理机对应一个数据分片,这样 key-partition和partition-machine映射也成为一体 ,都由同一个哈希函数来承担,  造成机器个数 K 出现在 映射函数,过度的紧密耦合。只要机器个数变动了,哈希函数也会 跟着变动。 

 

  2.虚拟桶(Virtual Buckets)

    

  如上图所示,在待存储记录和物理机之间引入了虚拟桶层,所有记录先通过哈希函数映射到对应的虚拟桶,记录和虚拟桶的映射关系:多对一

第二层映射是 虚拟桶到物理机之间的映射:多对一。 其具体实现方式通过查表来实现,通过内存表来管理这层关系 。

对照第一个图的抽象模型可以看出,虚拟桶层就是对应的 “数据分片” 层,key-partition映射采用哈希函数,而partition-machine 映射采用表格管理来实现。

 

  与Round Robin相比,引入了虚拟桶层,将原先记录到物理机的单层映射解耦成两层映射 ,阿达加强了系统的可扩展性。新的机器加入时,只需要修改partition-machine映射表中的个别条目就能实现扩展。

  优点:具有较强的灵活性。

 

  3.一致性哈希算法

    《数据分片与数据路由 》(二)...

 

转载于:https://www.cnblogs.com/lijiagui/p/10344580.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值