分布式学习（二）

最新推荐文章于 2024-09-03 17:24:40 发布

买个烂苹果

最新推荐文章于 2024-09-03 17:24:40 发布

阅读量423

点赞数

分类专栏：分布式存储文章标签：分布式分布式存储

本文链接：https://blog.csdn.net/pm6825939/article/details/18791837

版权

分布式存储专栏收录该内容

2 篇文章 0 订阅

订阅专栏

这次是分布式系统概述。

一）数据分布

数据分布式分布式系统面临的第一个问题，即将数据均匀地分布到多个存储节点，并在多个节点之间实现负载均衡。这也是分布式系统区别于传统单机系统所在。方式主要有2种

1）哈希分布

代表系统为Amazon的Dynamo系统。首先就是哈希取模，这是数据结构都会说的。然后如果哈希函数的散列性好的话，可以将数据比较均匀地分布到集群中去，但是这是很困难的。因为如果按照主键散列，同一个用户id下的数据可能被分散到多台服务器，这会使得一次操作同一个id下的多条记录变得困难；如果按照用户id散列，容易出现“数据倾斜“（可以看看hadoop的数据倾斜）问题，即某些大用户数据量很大，无论集群的规模有多大，这些用户始终由一台服务器处理。

处理大用户问题一般有两种方式，即手动拆分和自动拆分。

传统的哈希分布算法的一个问题是：当服务器上线或者下线，N值发生变化，数据映射被打乱，几乎所有的数据都需要重新分布，这将带来大量的数据迁移。比较好的解决就是采用一致性哈希算法。

大致思想如下：给系统中每个节点分配一个随机token，这些token构成一个哈希环。执行数据存放操作时，先计算Key（主键）的哈希值，然后存放到顺时针方向第一个大于或者等于该哈希值的token所在的节点，具体可参考网络上。

2）顺序分布

哈希散列破坏了数据的有序性，只支持随机读取，不支持顺序扫描。顺序分布在分布式表格系统中比较常见。它于B+树数据结构比较类似。

二）复制

为了保证分布式存储系统的高可靠和高可用，数据在系统中一般存储多个副本，当某个副本所在的存储节点出现故障时，分布式存储系统能够自动将服务切换到其他的副本，从而实现自动容错。分布式存储系统通过复制协议将数据同步到多个存储节点，并确保多个副本的数据一致性。

1）强同步复制：能保证存储系统的一致性，然而，当主备副本之间出现网络或者其他故障时，写操作将被阻塞，系统的可用性无法满足。

2）异步复制：保证系统的可用行，一致性无法做到。

存储系统设计时需要在一致性和可用行之间权衡，即三种模式中的最大可用性模式。

三）容错

简单来说就是故障检测和恢复。这里使用租约机制进行故障检测，即带有超时时间的一种授权，假设A需要检测机器B是否发生故障。A可以给B发租约，B持有的租约在有效内次允许提供服务，否则主动停止服务。B的租约快要到期的时候向机器A重新申请租约。如果出现故障，B的租约过期，从而A能确保B不再提供服务。