大规模分布式与并行数据库架构

大规模分布式与并行数据库架构

注意区分分布式和并行数据库之间的差别,不要混淆.分布式和并行同时出现时,两者特点容易使人犯迷糊.

分布式

最基本特征:本地自治,非集中式管理;分布透明性的组成:位置,数据分片,数据复制三者的独立性.造成数据传输量过大的原因一般是链接操作并操作.

透明性的若干级别,由低到高:局部数据模型透明性,需要用户了解全局分配情况,数据副本情况和副本片段位置分配;位置透明性,用户只需考虑数据分片情况,无需在意数据具体的存放位置;分片透明性.用户无需考虑数据分片的情况,应用程序不受影响.

优化查询,主要是连接操作和并操作会导致数据在网络中传输影响响应时间,一般使用基于半连接的优化策略和基于连接的优化策略.分布式事务管理包括恢复控制并发控制两个方面:恢复控制一般采用两阶段提交协议策略,三阶段提交协议可以避免阻塞问题,但开销较大;并发控制一般使用封锁协议.

分布式数据库模式结构一般可以分为六个部分,全局外模式是全局的用户试图;全局概念模式描述全体数据的逻辑结构与特征;分片模式描述每个数据片段以及全局关系到片段的映像;分配模式描述各片段到物理存放场地的映像;局部概念模式描述全局关系在场地上存储的物理片段的逻辑结构以及特征;局部内模式描述局部概念模式在本场地的物理存储.

数据分布策略可以从数据分片和数据分配两个角度来考虑,一般先分片再分配.分片将关系划分成多段,理解为将数据进行分割,分成若干数据段(块),然后进行数据分配,分配是将不同片段的数据按照一定的规则分配到当前分布式物理系统的不同物理节点中.

数据分片方法分为水平和垂直:水平分配时需要注意任一数据行(元组)必须在一贯数据段中(不能是个孤儿没位置放),以便在需要时重构关系(不可以说成选择方法恢复关系);垂直分片时每一个片段需要保存主码,保证可以恢复关系.重构用于水平,恢复用于垂直.

并行

并行有共享磁盘,共享内存,无共享和层次四种结构.一般通过负载均衡的方式提高业务的吞吐率.多处理机节点并发完成数据库任务,提升数据库系统整体性能.硬件手段固然重要,是并行架构的基础,但数据划分也是非常重要的.

层次结构结构分为两层,顶层是若干节点组成的无共享结构,底层是共享内存或者共享磁盘的结构.

无共享结构通过最小化共享资源降低资源竞争,有很高的拓展性,适合OLTP应用.

若干数据划分的方法与特点:

一维数据划分:轮转法充分发挥并行性,负载均衡,但查询复杂,效率低;散列划分,适合点查询,顺序扫描比较高效,但需要优良的哈希函数保证存储均衡;范围划分,利于范围查询和子查询,但业务需求的不确定性容易导致数据分布不均,并行效率下降.

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值