分布式数据库架构--排序分页分组探讨

探讨了分布式数据库架构中排序、分页及分组等复杂问题,并提出了几种解决方案,包括Hadoop+Hive和总库集中查询的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

分布式数据库架构--排序分页分组探讨

          最近对分布式数据库架构产生了兴趣,发现排序、分组及分页让人有点头疼。现把问题及解决思路整理如下,希望有兴趣的朋友能指出问题或是给出好的解决方法。当然,如果有经过实践的好方案,也希望能共享一二。

一、 多分片(水平切分)返回结果合并(排序)

          1、Select + None Aggregate Function的有序记录合并排序 

           解决思路:对各分片返回的有序记录,进行排序去重合并。此处主要是编写排序去重合

          并算法。

          2、Select + None Aggregate Function的无序记录合并

           解决思路:对各分片返回的无序记录,进行去重合并。

           优点:实现比较简单。

           缺点:数据量越大,字段越多,去重处理就会越耗时。

          3、Select + Aggregate Function的记录合并(排序)

          Oracle常用聚合函数:Count、Max、Min、Avg、Sum。

          AF:Max、Min

          思路:通过算法对各分片返回结果再求max、min值。

          AF:Avg、Sum、Count

          思路:分片间无重复记录或字段时,通过算法对各分片返回结果再求avg、sum、count值。分片间有重复记录或字段时,先对各分片记录去重合并,再通过算法求avg、sum、count值。

          比如:

          select count(*) from emp;

          select count(deptno) from emp;

          select count(distinct deptno) from emp;

二、多分片(水平切分)返回结果分页

         解决思路:合并各分片返回结果,逻辑分页。

        优点:  实现简单。

        缺点:  数据量越大,缓存压力就越大。

                     分片数据量越大,查询也会越慢。

三、多分片(水平切分)查询有分组语法的合并

         1、Group By Having + None Aggregate Function时

         Select + None Aggregate Function

         比如:select job emp group by job;

        思路:直接去重(排序)合并。

        Select + Aggregate Function

         比如:select max(sal),job emp group by job;

         思路:同Select + Aggregate Function的记录合并(排序)。

         2、Group By Having + Aggregate Function时

         解决思路:去掉having AF条件查询各分片,然后把数据放到一张表里。再用group by having 聚合函数查询。

四、分布式数据库架构--排序分组分页参考解决方案

         解决方案1:Hadoop + Hive。

         思路:使用Hadoop HDFS来存储数据,通过Hdoop MapReduce完成数据计算,通过Hive HQL语言使用部分与RDBBS一样的表格查询特性和分布式存储计算特性。

         优点: 可以解决问题

                       具有并发处理能力

                       可以离线处理

         缺点:  实时性不能保证

                       网络延迟会增加

                       异常捕获难度增加

                       Web应用起来比较复杂

          解决方案2:总库集中查询。

          优点: 可以解决问题        

                       实现简单

          缺点: 总库数据不能太大

                        并发压力大

五、小结

         对于分布式数据库架构来说,排序、分页、分组一直就是一个比较复杂的问题。避免此问题需要好好地设计分库、分表策略。同时根据特定的场景来解决问题。也可以充分利用海量数据存储(Hadoop-HDFS|Hive|HBse)、搜索引擎(Lucene|Solr)及分布式计算(MapReduce)等技术来解决问题。别外,也可以用NoSQL技术替代关系性数据库来解决问题,比如MogonDB。

书名: 分布式数据库架构及企业实践——基于Mycat中间件 作者:周继锋 冯钻优 陈胜尊 左越宗 ISBN:978-7-121-30287-9 出版年月:2016年11月 定价:79元 开本:787×980 1/16 普通关键词:计算机 分布式 数据库 学科关键词: 分布式 数据库 架构 实践 编辑推荐 讲解分布式数据库的书并不多,讲解其架构及企业实践的就更少了。 本书基于国内知名的开源分布式数据库中间件Mycat讲解了如何实现分布式数据库,很有实践及借鉴意义。 内容简介 本书由资深 Mycat 专家及一线架构师、DBA 编写而成。全书总计 8 章,首先简单介绍了分布式系统和分布式数据库的需求,然后讲解了分布式数据库的实现原理,并对市场上存在的各种分布式数据库中间件进行了对比,再围绕着如何利用 Mycat 实现分布式数据库而展开。本书对 Mycat 从入门到进阶、从高级技术实践到架构剖析、从网络通信协议解析到系统工作原理的方方面面进行了详细讲解,并剖析了 Mycat的 SQL 路由、跨库联合查询、分布式事务及原生 MySQL、PostgreSQL 协议等核心技术。通过本书不仅可以了解 Mycat 的基本概念,掌握 Mycat 配置等技术,还能感受到 Mycat 的架构设计之美,了解 Mycat 2.0的未来规划。 无论是对于软件工程师、测试工程师、运维工程师、软件架构师、技术经理,还是对于资深 IT 人士来说,本书都极具参考价值
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值