1
概述
随着海量数据问题的出现,海量管理能力,多类型,变化快,高可用性,低成本,高端
可扩展性等需求给企业数据战略带来了巨大的挑战。
企业数据仓库、
数据中心的技术选型变
得尤其重要!所以在选型之前,有必要对目前市场上各种大数据量的解决方案进行分析。
2
主流分布式并行处理数据库产品介绍
2.1
Greenplum
2.1.1
基础架构
Greenplum
是基于
Hadoop
的一款分布式数据库产品,在处理海量数据方面相比传统数
据库有着较大的优势。
Greenplum
整体架构如下图:
数据库由
Master Severs
和
Segment Severs
通过
Interconnect
互联组成。
Master
主机负责:建立与客户端的连接和管理;
SQL
的解析并形成执行计划;执行计
划向
Segment
的分发收集
Segment
的执行结果;
Master
不存储业务数据,只存储数据字典。
Segment
主机负责:业务数据的存储和存取;用户查询
SQL
的执行。
2.1.2
主要特性
Greenplum
整体有如下技术特点:
Shared-nothing
架构