Pivotal Greenplum 5.3 特性简介

敏捷的软件开发是Pivotal的核心业务,也是Pivotal Greenplum创新的主要驱动因素,现在Pivotal Greenplum已经发展到了5.3版本。本文主要介绍Pivotal Greenplum 5.3的功能特性。


一、Greenplum容器化

5a5bd313-7d2e-419f-838c-f86c012c8fbe.png

Greenplum 5.3是一个基础版本,在我们向未来与Pivotal Container Service (PKS)集成迈进的过程中提供了早期的容器化功能。


完全容器化的 Greenplum 在分析数据库领域将是独一无二的,因为许多传统的数据分析平台都是一体化的,难以抽离。容器化的 Greenplum 将能够扩展以支持更多用户、更多工作负载,并减少邻居资源争用的影响。它还将给予数据库管理员(DBA)管理系统的最终控制权,并平衡不同用户的查询请求。

Greenplum 5.3提供基础组件,这些组件通过允许查询接口(例如符合ANSI的SQL、Python和R)在平台内进行容器化来增强资源隔离和弹性。


查询容器化
  • 由全新Greenplum 5.3资源组功能提供支持。

  • 这一新功能进一步增强了Greenplum的稳定性和可管理性,同时为多租户和混合工作负载提供了更丰富的资源隔离。

  • 它提供CPU和内存资源的操作系统级别分组功能,以及可确保每个事务都能达到预定数量的并发事务。

  • 资源组CPU管理建立在Linux控制组(cgroups)基础上,可向所有组提供良好的隔离和自动突增的CPU资源。

  • 每个资源组的内存分配都会在组和查询级别预先进行配置。

  • 资源组执行基于事务的并发管理。这使得DBA可以管理并发级别,并为等待进入系统的查询创建有序队列。


支持R/Python语言容器化
  • 由全新Greenplum 5 PL/容器(预览功能)提供支持。

  • 这是可信语言执行引擎的实现,该引擎能够启动Docker容器,将执行程序与主机操作系统隔离,从而实现沙箱化。

  • PL/容器在Docker容器内部运行Python和R代码。Greenplum内部运行的服务器端代码使用RPC协议与容器进行通信。

  • 容器预先配置了Pivotal Greenplum,用于数据科学工作负载,还可以针对不同的最终用户工作负载从头开始自定义或构建容器。可以部署多个不同的容器,以适应具有不同要求的不同开发团队。


二、Greenplum 数据生态系统可扩展性

5a5bd313-7d2e-419f-838c-f86c012c8fbe.png

Greenplum 5.3显著提高了与Apache Hadoop和Apache Spark框架的现有集成水平。


改进了与Hadoop生态系统的集成

  • Apache Hadoop是一种常见的分布式处理框架,主要部署为大型数据存储库(即“数据湖”)。企业正在寻求将数据湖的最佳要素与Pivotal Greenplum等MPP引擎的查询性能相结合的混合方法,从而实现高级分析。对于这些使用场景,Pivotal Greenplum 5.3提供了Platform eXtension Framework (PXF),这是一种REST API抽象层,使Pivotal Greenplum能够以高度并行的方式查询Hadoop数据。

  • 新的PXF集成了来自Pivotal HDB(一种称为“Pivotal Extension Framework”的功能)的功能,从而为更广泛的Hadoop生态系统提供Pivotal HDB和数据集成的功能平等性。

  • 借助PXF,Pivotal Greenplum用户可以跨平台内的数据和外部Hadoop源进行联合查询。这种共生关系可以将数据湖的成本和存储优势与Pivotal Greenplum MPP查询引擎的性能相结合。

  • PXF包含内置插件,用于访问HDFS文件、Hive表和HBase表中的数据。专为扩展而设计,用户可以创建自定义扩展来访问其他并行数据存储、处理引擎或文件及存储格式。


Pivotal Greenplum和Apache Spark集成

  • Apache Spark是用于大数据处理的极为常见且快速的内存中引擎。它提供用于流式处理、SQL、机器学习和图形处理的内置模块。数据科学家和数据工程师等Spark用户希望运行快速的内存中分析、探索性分析和ETL处理,并同时使用Pivotal Greenplum上的数据。用户将能够使用Spark JDBC驱动程序来加载和卸载Greenplum中的数据。

  • Pivotal Greenplum Spark连接器在Greenplum数据库和Apache Spark集群之间提供高速并行的数据传输。


三、Greenplum 开源改进

5a5bd313-7d2e-419f-838c-f86c012c8fbe.png

Greenplum 5.3添加了适用于Ubuntu Linux操作系统的Greenplum 数据库开源二进制文件,因而建立在开源支持基础上。


Ubuntu上的GPDB开源二进制文件

  • 在Greenplum Database 5.3之前,发行版只能通过Github中的源代码获得;但这一切都随着5.3预先打包的二进制文件发生了改变。

  • 二进制开源选项将为Greenplum社区提供更简单、更快速、更一致的安装。

  • 预计这将显著提高Greenplum(开源版和商业版)的关注度和采用率。

  • Ubuntu用户可以使用本地apt-get命令从包含编译版本的个人软件包存档轻松安装Greenplum。


其他功能


5a5bd313-7d2e-419f-838c-f86c012c8fbe.png

最后,Pivotal Greenplum 5.3增加了大量新功能,其中包括:新的备份和恢复实用程序、用于文本搜索的不区分大小写的模块,以及我们对SUSE(SLES)12的新企业支持。


新版本的备份和恢复(预览特性)

  • 新版本Greenplum备份和恢复功能可提供更高的性能,降低在线备份的锁竞争,提供监控和报告以及其他可配置性选项的进展情况。

  • 新版本Greenplum备份和恢复实用程序包含在在Greenplum 5.3版本中。根据来自Greenplum客户的大量反馈,我们已经采纳了许多针对性能和可用性的建议,以期提供全新的备份和恢复体验。

  • 提高了性能

  • 支持多个并发备份,从而实现运行时间缩短50%。

  • 元数据备份性能提高了6倍。

  • 提高了压缩效率,运行时间缩短为原来的1/3。

  • 用户体验

  • 减少目录锁定,从而减少了与ETL进程的竞争。

  • 提高了监视和日志记录的级别。

  • 增加了用于选择性备份和恢复的对象过滤级别。

  • 提供多种输出文件格式,帮助从Greenplum的早期版本迁移。


不区分大小写的文本(citext)模块

  • 这是从PostgreSQL反向移植的新功能,可实现执行不区分大小写的文本搜索。它可以比较“cesar rojas”的所有匹配项(“Cesar Rojas”||“CESAR ROJAS”||“cesar rojas”||等)。

  • 这是客户从Teradata等数据库迁移到Pivotal Greenplum的重要功能,也是我们Greenplum文本处理策略的关键要素。


支持 SLES 12

Pivotal现已为SUSE Linux Enterprise Server (SLES)12 提供Pivotal Greenplum官方支持。由此,Pivotal Greenplum目前也可为Redhat和SUSE的企业发行版提供全面支持。


关于作者

Cesar Rojas是Pivotal Greenplum的产品营销总监,负责为Greenplum制定宣传信息和市场营销策略。在加入Pivotal之前,Rojas曾担任Teradata Portfolio for Hadoop和Teradata Aster产品的产品营销总监。Rojas是一位资深分析和数据管理专家,在大型的数据分析公司和成功的数据初创企业有着15年的工作经验。Rojas从那慕尔圣母大学获得MBA学位,攻读方向是电子商务,还拥有计算机工程学科的学士学位。


点击文章底部“阅读原文”, 查看英文博客。



本文分享自微信公众号 - Greenplum中文社区(GreenplumCommunity)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值