GreenPlum主要的功能和优势

基于软件,并针对商业硬件进行了优化
软件很容易安装到多家一级供应商提供的商业x86服务器上,并在Linux和Solaris上运行。

线性扩展性能
“完全不共享”体系和并行查询优化可以确保线性扩展性能和容量,将其扩展到成本上千个节点和处理器内核。

支持MapReduce
MapReduce已经被Google和Yahoo等重要的互连网服务运营商证明是一种可行的大规模数据分析技术。借助Greenplum,各个企业可以在内部使用MapReduce技术。

SQL标准
通过SQL 2003 OLAP控制功能全面支持SQL-92和SQL-99。所有查询信息都并行地在整个系统上执行。

统一分析处理
可以在同一个并行数据流引擎上执行所有查询和分析(SQL、MapReduce、R等)操作,从而允许分析人员、开发人员和统计人员使用同一个基础构架进行数据分析。

可编程并行分析
为从事运算和统计工作的人员提供了更先进的并行分析功能,支持R、线性代数和机器学习功能。

数据库内压缩
采用了业内领先的压缩技术,提高性能的同时,显著地减少存储数据所需的空间。客户可以将所用空间减少3-10倍,并提高有效的I/O性能。

千万亿字节规模的数据加载操作
高性能的并行数据装载器可以在所有节点上同步执行操作,装载速度超过4.5TB/小时。

随地访问数据
不管数据的位置、格式或存储介质如何,都可以从数据库向外部数据源执行查询操作,并行向数据库返回数据。

动态扩展
帮助公司对数据仓库进行便捷的小规模或大规模扩展,同时避免高成本的设备或SMP服务器升级。

工作负载管理
允许管理人员创建基于角色的资源队列,以便划分资源和管理系统负载。

集中管理
提供集群级管理工具和资源,帮助管理人员像管理一台服务器一样管理整个Greenplum数据库平台。

性能监控
通过图形化的性能监控功能,用户可以确定当前运行的情况和历史查询信息,并跟踪系统使用情况和资源信息。

支持索引
Greenplum支持二叉搜索树、哈希、位图、GiST和GIN,从而能够实现多种索引功能,提供给数据架构师实施优化设计所必需的工具。

工业标准接口
支持标准数据库接口(SQL、ODBC、JDBC、DBI),并且可以与市场上先进的商务智能和抽取/转换/加载(ETL)工具互相操作。
Greenplum 之前是一家总部位于美国加利福尼亚州,为全球大型企业用户提供新型企业级数据仓库(EDW)、企业级数据云(EDC)和商务智能(BI)提供解决方案和咨询服务的公司。目前 Greenplum 已经归属 Pivotal。 Greenplum DB 号称是世界上第一个开源的大规模并行数据仓库,最初是基于 PostgreSQL,现在已经添加了大量数据库方面的创新。Greenplum 提供 PD 级别数据量的强大和快速分析能力,特别是面向大数据方面的分析能力,支持大数据的超高性能分析查询。 GreenPlum 主要特性: 大规模并行处理架构 高性能加载,使用 MPP 技术,提供 Petabyte 级别数据量的加载性能 大数据工作流查询优化 多态数据存储和执行 基于 Apache MADLib 的高级机器学习功能 Greenplum 采用 Apache 协议开源之后,加上之前的 HAWQ,PostgreSQL 以及 PostGIS,完全可以构建一体化的 PostgreSQL 企业数据架构。 Greenplum的架构采用了MPP(大规模并行处理)。在 MPP 系统中,每个 SMP 节点也可以运行自己的操作系统、数据库等。换言之,每个节点内的 CPU 不能访问另一个节点的内存。节点之间的信息交互是通过节点互联网络实现的,这个过程一般称为数据重分配(Data Redistribution) 。与传统的SMP架构明显不同,通常情况下,MPP系统因为要在不同处理单元之间传送信息,所以它的效率要比SMP要差一点,但是这也不是绝对的,因为 MPP系统不共享资源,因此对它而言,资源比SMP要多,当需要处理的事务达到一定规模时,MPP的效率要比SMP好。这就是看通信时间占用计算时间的比例而定,如果通信时间比较多,那MPP系统就不占优势了,相反,如果通信时间比较少,那MPP系统可以充分发挥资源的优势,达到高效率。当前使用的 OTLP程序中,用户访问一个中心数据库,如果采用SMP系统结构,它的效率要比采用MPP结构要快得多。而MPP系统在决策支持和数据挖掘方面显示了优势,可以这样说,如果操作相互之间没有什么关系,处理单元之间需要进行的通信比较少,那采用MPP系统就要好,相反就不合适了。 标签:Greenplum
Greenplum和Hadoop都是大数据处理和分析平台,但在一些方面存在显著的差异。 首先,Greenplum是一个基于关系型数据库的分布式数据库管理系统(DBMS),而Hadoop是一个用于存储和处理大数据的分布式文件系统(HDFS)。Greenplum提供类似于传统关系型数据库的结构化数据存储和查询功能,而Hadoop则适用于存储和处理非结构化和半结构化数据。 其次,Greenplum在处理复杂查询和高并发性能方面具有优势。它支持SQL语言和并行查询优化器,能够处理复杂的关系型查询,并提供高度并行处理能力,适合大规模企业级数据分析和查询。而Hadoop则更适合处理大规模数据集上的批量处理任务,如批量数据清洗、分析和挖掘。 此外,Greenplum的部署和维护相对简单,适合那些已经具备关系型数据库管理经验的企业。而Hadoop的部署和维护相对复杂,需要一定的技术和管理能力。 最后,Greenplum提供了更广泛的数据分析功能和工具集成,如ETL(Extract, Transform, Load)工具、BI(Business Intelligence)工具等,可以辅助用户进行更深入的数据分析和洞察。而Hadoop则更加灵活,支持自定义的数据处理流程,并具有更多的开源工具和组件可供选择。 综上所述,Greenplum适合企业级大规模结构化数据分析和查询,而Hadoop则适用于非结构化和半结构化数据的存储和批量处理。选择哪个平台取决于具体的业务需求和数据处理场景。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值