大数据基础理论—数据分片与路由

最新推荐文章于 2024-07-14 03:18:35 发布

Shao Kaiyang

最新推荐文章于 2024-07-14 03:18:35 发布

阅读量795

点赞数

分类专栏：大数据基础理论文章标签：数据分片和路由大数据基础理论

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Kaiyang_Shao/article/details/89901038

版权

本文介绍了大数据存储中的数据分片和路由概念，以应对大规模数据的存储和处理需求。主要内容包括抽象模型的两级映射，以及哈希分片（如round robin、虚拟桶和一致性哈希）的优缺点分析。一致性哈希在解决机器动态变化时的影响范围问题上有优势，而范围分片则支持有序查询。

摘要由CSDN通过智能技术生成

0. 前言

随着数据规模的不断扩展，单机已经不能存储和处理如此大的数据量，只能依靠大规模的集群进行存储和处理。扩展的方式分为两种，一种是scale up类型，即通过升级改造单机的处理能力来扩展，例如装配更多的CPU和内存；另外一种是scale out类型，即通过增加机器的方式进行，这种方式是目前主流的方式。

对于海量数据的存储和处理，需要通过数据分片来将数据进行切分分配到各个机器中去，数据分片之后还需要按照一定的规则找到数据，这就称为路由。通常数据分片和复制是紧密相关的两个概念。数据分片实现系统的水平扩展，而数据复制主要保证数据的高可靠性，因为在大型集群中，某些机器节点会因为一些不可知的原因出现问题，这个时候如果没有数据备份就会导致部分数据丢失，这对于系统和用户来说都是不可接受的。下面将介绍分片和路由的一些常用算法。

1. 抽象模型

分片和路由的抽象模型主要包含两步：

数据key通过一定的映射策略将其映射到一个分片；
一个分片再按照一定的映射策略映射到具体的机器；
这里面的映射策略包括哈希分片和范围分片，哈希分片主要通过一个哈希函数进行分片，而范围分片不仅支持点查询还支持范围查询。
举个简单的例子，例如现在有海量的数据需要存储，我们第一步可以根据某个哈希函数将这些数据切割成100个文件，然后再将这100个文件映射到具体的机器上。
在进行数据路由时，首先由key得到其所在的分片，然后根据分片找到其对应的机器，然后去机器上寻找所需要找的数。

2. 哈希分片

哈希分片的核心思想是通过哈希

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。