greenplum:命令_Greenplum 6评论:万事通,某些大师

greenplum:命令

MPP(大规模并行处理)数据库在商品服务器集群中的每个节点上分布数据和查询。 Greenplum建立MPP数据仓库的方法是独特的。 通过在已建立的开源数据库PostgreSQL上构建,他们可以将工程重点放在增加价值的地方:并行化和关联的查询计划,用于分析的列式数据存储以及管理功能。

Greenplum由Pivotal拥有和开发,并得到了开源社区的支持,并且可以根据Apache 2许可免费获得。 最新版本Greenplum 6.0在将Greenplum核心与PostgreSQL重新集成方面取得了很大的进步,并结合了PostgreSQL项目近六年的改进。 这些努力意味着,Greenplum将继续获得“免费”的新功能和增强功能,而Pivotal则致力于使这些添加功能在并行环境中良好运行。

[ 也在InfoWorld上:用于AI开发的5种最佳编程语言 | 通过InfoWorld的机器学习和分析报告紧跟机器学习,人工智能和大数据分析方面的最新进展 ]

Greenplum体系结构

MPP数据库使用所谓的无共享架构。 在这种体系结构中,称为段的各个数据库服务器(基于PostgreSQL)在将结果返回给主主机之前,每个服务器都要处理一部分数据。 在其他数据处理系统(例如SparkSolr)中可以看到类似的体系结构。 这是允许Greenplum集成其他并行系统(如机器学习或文本分析)的关键体系结构功能之一。

例如,由于Solr具有类似的分布式体系结构,因此Greenplum可以将各个Solr处理实例与段主机链接起来,以提供或多或少的无缝查询和分析体验。 这也意味着数据就地处理,避免了数据在网络上的昂贵移动。

青梅建筑01 关键的

图1:Greenplum架构的高级视图。

部署Greenplum

Greenplum可以通过几种方式进行部署:通过各自的市场在所有三个主要云中进行容器化或在裸机上进行部署。 与任何群集应用程序一样,在专用裸机上可获得最佳性能。 我在短短几分钟内在Google Cloud Platform上部署了一个包含两个节点的两节点集群。 大约一个小时后,我使用预编译的二进制文件将Greenplum本地安装到了VM中。

本地安装是必需的,因为Greenplum 6尚不可用。 它将于2019年11月到期。本地安装也使我有机会评估Greenplum文档的质量。 正如您可能希望从以前的封闭源专有产品中看到的那样,它很棒。

具有多个部署选项,使公司可以微调其部署以匹配运营需求。 例如,可以在多节点裸机集群上训练模型以进行快速模型开发,然后将其部署在在容器中运行REST端点的Pivotal Postgres的单个实例上,以对模型进行操作。

Greenplum联合查询

如今,数据无处不在-位于不同的位置,不同的格式和不同的“温度”。 Greenplum 5中引入的Pivotal扩展框架(PXF)脱离了旧的HDFS连接器,成为访问Greenplum中外部数据表的通用方法。 PXF还连接到不同的数据格式,例如文本文件(例如Web日志),外部数据库,ORC,Parquet和HBase。 可以使用Java API将新的数据源添加到PFX。

将PXF与PostgreSQL 9.4带来的外部访问功能相结合,Greenplum可以跨数据位置执行联合查询,包括Kafka流,HDFS,Spark和Amazon S3对象存储。 后一种查询Amazon S3对象存储的功能包括Amazon的本地S3 SELECT API,可通过在边缘进行过滤来提高性能。

联合查询比您想象的要有用。 例如,假设我们希望找到所有符合以下条件的个人:

在“ IDG”工作,并“直接”彼此认识,名字听起来像“ Doug”或“ Steve”,并已在24小时内从新加坡或旧金山互相打过电话

可以在欺诈调查中或在响应金融监管机构的信息请求时看到这种查询。 在典型的企业中,此信息将散布在六个或更多不同的系统中,并且可能需要一周或更长时间才能回答。 使用联合查询,我们可以将其组合到一个查询中,并在一小时内回答。 在监管不断加强的时代,许多公司努力避免因迟交查询而罚款,联邦查询在此起到了很大作用。

Greenplum分析和机器学习

Greenplum的MADlib扩展是一个基于SQL的数据分析和机器学习库,最初是由几所大学和Greenplum开发的。 MADlib旨在与Greenplum的无共享并行架构一起使用。 并非所有的机器学习算法都可以并行化,但对于那些可以并行化的算法,MADlib可以在避免数据传输的同时,根据数据集的大小实现或多或少的线性可扩展性。 MADlib包含50多种最常用的机器学习算法。

MADlib最有用的功能之一是SQL界面,它使公民数据科学家无需爬Python或R的学习曲线即可增加价值。可以通过MADlib REST端点部署模型以使分析见解可操作。 对于具有中等分析成熟度并实施冠军/挑战者决策管理策略的企业,使用SQL可以增加正在考虑的模型数量,而无需从中央团队转移额外的资源。

对于传统的数据分析人员而言,PivotalR连接器(可在CRAN上获得)通过将R代码转换为客户端上相应SQL语句,然后将它们发送到Greenplum集群中以执行,从而为MADlib提供了经典的R语言接口。 这避免了数据传输,并允许处理大数据帧,否则由于内存限制,在R中是不可能的。

greenplum模型部署02 关键的

图2:使用Greenplum和MADlib进行机器学习模型的部署。

HTAP数据仓库

混合事务/分析处理(HTAP)是Gartner创造的一个术语。 他们的定义:

混合事务/分析处理(HTAP)是一种新兴的应用程序体系结构,在事务处理和分析之间“打破了壁垒”。 它可以进行更明智的“实时业务”决策。

实际上,这意味着系统的用例是长查询和短查询以及更新和删除的混合。 为了支持HTAP并防止资源匮乏,Greenplum实现了一种称为资源组SQL容器化形式,该形式允许在多租户HTAP环境中隔离资源。 通过使用资源组,您可以限制CPU,RAM(按组或查询)和最大并发性。 资源组提高了混合工作负载的性能,并防止了查询对资源的竞争。

PostgreSQL和Greenplum之间的主要区别之一是查询计划器。 尽管Greenplum在派生时继承了PostgreSQL查询计划程序,但在分布式环境中进行有效的查询计划与在单台计算机上进行有效的计划截然不同。 因此,Greenplum基于Cascades的查询优化框架,着手构建自己的查询计划器。 该算法评估所有可能的查询计划并为其分配成本,选择执行成本最低(最快)的计划。

Greenplum提供了一些功能来帮助查询计划者避免数据移动,例如能够将维度表复制到群集中的每个节点以实现更快的本地联接操作和可调数据压缩。

半结构化数据处理继承自PostgreSQL,包括JSON和JSONB,XML,键值对(HSTORE)和纯文本。 同样从PostgreSQL继承的GIN(通用反向索引)可用于索引经常使用的文本列。 对于更复杂的文本查询,可以使用GPText。 GPText将Greenplum段与Apache Solr分片集成在一起,以提供自然语言搜索查询。 由于Solr碎片位于同一节点上,因此它们具有相同的并行体系结构。

青梅表现

HTAP数据库要求在大型的,长期运行的分析查询,简短的即席查询和等式的OLTP端上的ACID事务之间保持平衡。 在这种混合工作负载方案中,良好的性能对于Greenplum所针对的混合用例至关重要。 PostgreSQL 9.4内核为Greenplum 6提供了许多优化,主要是围绕避免锁定,这使TPC-B基准上的Greenplum 5的性能提高了60倍。

青梅TPC B 03 关键的

图3:Greenplum 6和Greenplum 5的TPC-B基准测试结果。

鉴于PostgreSQL为进一步的优化铺平了道路(现在已在版本12上),随着内核在Greenplum 7中再次升级,我们可以期待Greenplum的进一步改进。

青梅指挥中心

Greenplum Command Center是Pivotal产品的一部分,并提供基于Web的界面,用于监视和管理Greenplum集群(或多个集群)。 尽管核心DBA不太可能放弃其命令行界面,但是Command Center是用于可能无法访问全职DBA的部门级部署的欢迎管理工具。 我发现它很容易浏览并且有据可查。 用户,查询,节点,段和资源组都可以通过该界面轻松管理。

greenplum指挥中心04 IDG

Greenplum指挥中心。

企业中的Greenplum

Greenplum是部门标准的理想选择,因为它可以在一个平台上处理混合工作负载,包括预测分析。 如果您不打算从ELA菜单中选择软件,或者不想逃避AI的“试炼”,对Greenplum的HTAP方法的投资可能会提供一种以较低的价格提高机器学习和分析的创新用途的方法比竞争解决方案。

Greenplum还是企业级Netezza或Teradata替代产品的明智之选。 尽管Greenplum不能完全从整个企业的Oracle Database或Microsoft SQL Server之类的公司那里获得OLTP的支持,但它对于中型交易系统将非常有效。

Greenplum是80/20规则的一个很好的例子。 尽管它不执行任何一项任务,也不执行一个专用工具,但它能很好地完成大多数任务,足以覆盖80%的用例,而且无需将多个系统和将它们集成到分析管道中。 在考虑总拥有成本时,这在很大程度上对其有利。

费用 :根据Apache 2.0许可免费开放源代码。

平台 :可作为源代码; 作为CentOS,Red Hat,Debian和Ubuntu Linux发行版的软件包; 以及在Amazon Web Services,Microsoft Azure和Google Cloud Platform市场中。

翻译自: https://www.infoworld.com/article/3452517/greenplum-6-review-jack-of-all-trades-master-of-some.html

greenplum:命令

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值