Greenplum 5正式发布:世界上第一个用于高级分析场景的开源、跨云数据平台

世界上规模最大、创新最多的组织均已部署了先进的大规模并行数据分析平台-Pivotal Greenplum,以帮助其解决战略性数据处理和分析面临的挑战。因为技术局限,传统数据平台几乎无法承受重要的分析工作负荷,无法应对欺诈管理和风险分析对网络安全及物联网带来的严重挑战,或者成本太过高昂。 Pivotal于2015年开源了Greenplum,这一举动震撼了整个数据仓库和分析行业。

今天,我们很高兴地宣布Pivotal的最新创新:Greenplum 5,一个功能强大、敏捷迭代和支撑关键业务的出色数据分析平台。这个里程碑式的版本包含以下新功能和改进:

 

  • 跨云部署 除了现已支持的企业级部署方案,Greenplum 5可以无缝运行于亚马逊AWS、微软Azure、谷歌云GCP、VMWare vSphere和OpenStack等多种云平台。Pivotal还在这些平台上提供部署咨询和托管服务。


  • 集成分析 Greenplum 5提供了统一的可横向扩展的数据分析方案,集机器学习、图形计算、文本分析、地理空间计算以及传统的商业智能和报表功能于一身,消除了数据分析孤岛,帮助企业构建下一代数据平台。


  • 快速创新 Pivotal将开源模式和敏捷开发最佳实践相结合,更快地为客户和社区提供数据分析平台创新。


跨云平台数据分析

随处分析

支持跨云平台数据分析是2017年许多组织的重要要求。

一个主要原因是很多组织逐渐在不同的项目中采用云计算。企业内不同的部门希望能灵活的在Amazon Web Services(AWS)、Microsoft Azure、Google Cloud Platform(GCP)或私有云中按需启用或关闭自己的分析环境。 他们希望根据易用性、性能和总体拥有成本(TCO),为每个项目和工作负载选择最佳云平台。 同样重要的是,组织希望通过多个云平台实现弹性和灾难恢复功能。 

跨云是数据分析的当前需求和未来趋势。

与传统企业数据仓库(EDW)和新的“云”数据仓库不同,Greenplum数据平台中的所有优化都是在软件中进行的,而不是在专有的硬件或网络配置上。 这使得Greenplum 5成为一个灵活、强大且与基础设施无关的平台,能够运行于各种环境中,包括:

  • 所有的公共云:AWS,Azure和GCP,同时支持自带许可证(BYOL)的收费模式和按小时收费模式


  • 私有云:VMware vSphere和OpenStack


  • 内部部署(专用硬件):戴尔EMC的DCA一体机,戴尔EMC的Blueprints,惠普和思科认证的配置以及客户自备的硬件


d64f1dd8-f8e8-45a0-b57d-cd2306f6ceb3.png


在选择如何部署时,像Greenplum 5这样的基础设施无关的分析平台拥有显著优点:

  • 避免云/硬件供应商锁定,以最具竞争力的价格使用最合适的基础设施。

  • 灵活采用私有云和公有云,组织能够将可以迁移的分析工作迁移到云上,由于业务、监管或其他原因不能上云的分析工作留在企业私有云中。

  • 为不同项目或场景(ETL,模型构建,测试,评分,商务智能)部署最佳基础设施,帮助您的数据分析人员(ETL开发者,数据科学家,分析师)专注于业务需求以提高生产力。

  • 在AWS或Azure 云市场上几分钟内即可实例化新集群,而不影响现有环境。

集成分析:机器学习、图形计算、地理空间数据分析等

一个平台满足所有计算密集型和复杂分析需求

新型数据源爆炸式增长之前,EDW是最接近360度业务分析视图的环境。 近年来,除了EDW,许多组织部署了多种异构分析产品,试图从各种数据中获得更佳洞见。 这些产品包括:  

  • 云数据仓库

  • 机器学习框架

  • 图数据库

  • 地理空间数据处理工具

  • 文本分析环境

这些新的部署很快造成了分析孤岛,无法与现有EDW集成,从而大大限制了公司范围内的洞察力和创新。

与传统的EDW和新的替代方案不同,Greenplum 5将传统分析和高级分析集成在一个可横向扩展的平台中,消除了数据分析孤岛。 以下是Greenplum 5中集成的一些新功能:

  • 开源的并行机器学习和图形分析:Apache MADlib是一个可扩展的并行分析开源算法库。 它在Greenplum 5上为机器学习、数学、统计和图形算法提供了并行实现。利用Greenplum的大规模并行处理(MPP)架构的强大计算能力,MADlib可以处理非常大的数据集,而其他产品则受限于单个节点的内存大小。 MADlib算法提供了熟悉的SQL接口,使用十分便捷。


  • 开源的并行地理空间分析:与EDW中的某些专有地理空间功能不同,Greenplum 5提供了基于PostGIS开源项目的大规模可扩展的地理空间分析功能。 Pivotal充分利用成熟活跃的PostGIS社区和合作伙伴生态系统,不断提供GIS创新。


  • 并行文本分析:Pivotal Greenplum 5的用户可以使用GPText。GPText是一个基于Apache Solr的文本分析引擎,并针对Greenplum的MPP架构进行了优化。 GPText 2.0具有Solr的灵活性和可配置性,兼具Greenplum的可扩展性和SQL接口的易用性,结合两者可显著简化分析大量原始文本数据的过程,减少半结构化和非结构化数据(社交媒体讯息 ,电子邮件数据库,文档等)处理的复杂度,缩短获取洞见的时间。


  • 通过过程语言扩展(PL / X)支持流行的Python和R分析库:Greenplum 5用户可以用多种语言(包括SQL,Perl,Python,R,C和Java)编写用户自定义函数(UDF), 并在数据科学工作流中分布式并行执行这些UDF。 此外,在UDF中可以使用以上语言的各种程序库(例如Python的NLTK,R的rstan)。Greenplum 5还提供了数据科学家程序包,其中包含很多Python和R的常用库,大大简化了安装配置的复杂度。


  • 使用 Greenplum-Spark Connector(GSC)支持Spark:新的GSC为包括数据科学家在内的Spark用户提供了与Pivotal Greenplum 5的原生连接。GSC允许用户将Greenplum的数据高速加载到Spark中,并在Spark集群上运行工作负载, 然后将Spark集群上的计算结果推回到Greenplum进行进一步分析和持久存储。


784230fd-6569-4f89-9b35-8336c70a0210.png


Greenplum 5及其集成的分析特性使用户能够快速操作大型分析模型并发布切实可行的创新业务。 例如:

  • 数据库自带的机器学习特性为数据科学家和分析团队提供了一个快速响应新业务机遇和挑战的平台。 模型训练可以按需在数据库上执行。 模型评分可以在平台上运行,也可以将模型导出到其他地方运行,例如可以运行在基于现代数据微服务体系构建的应用中,这些应用又可以运行在Pivotal CloudFoundry®这样的PaaS平台上。


  • 提供多种方式处理、分析和搜索各种结构的文本文档,可以同时使用Python标准库、Apache Solr的文本操作符和Madlib的机器学习函数,高效处理分析各种类型的不同结构的文本内容。


  • 对于有地理信息系统(GIS)数据查询和分析需求的客户(例如零售商,银行,政府),Greenplum 5可将地理数据分析与机器学习能力相结合。 例如,大型零售商可以轻松了解客户如何使用不同的店面位置,预估哪些店铺会对特定商品的需求增加,并预测不断变化的市场,从而提高客户满意度并增加收入。 借助Greenplum数据平台中提供的这些功能,分析师可以对数据进行全量分析,也可以进行规模分析,从而避免抽样分析的风险和由此带来的额外工作。


  • 数据科学家可以使用他们喜欢的工具(包括Python和R)直接在数据库中处理和分析大规模数据,而不需要移动数据。


  • 基于SQL的集成数据分析平台可以帮助用户更快的构建和部署数据科学模型。 

快速创新

100%承诺开源:与PostgreSQL社区合作推进快速创新

在Greenplum 5中,我们将3000多个PostgreSQL改进功能合并到了Greenplum内核中,并提供了许多新功能,包括性能提升、支持JSON和用于半结构化数据的HSTORE,支持更多原生数据类型(例如通用唯一标识符(UUID)) 和用于高级地理空间分析的光栅地理空间模块。


除了快速交付新功能之外,参照PostgreSQL将Greenplum开源,也为我们的客户提供了战略优势。因为他们可以完全控制部署的软件,无供应商锁定,同时又能对产品方向产生明显的影响。


敏捷开发:持续发布的创新分析特性

三年多来,Pivotal Greenplum研发团队采用了Pivotal的敏捷开发实践(小型/专注团队,结对编程,测试驱动开发和持续集成)。 这大大增加了创新的速度,每月发布新版本,远远超过传统的开源产品和其他商业产品。 放眼全球,还没有其他分析平台可以以Pivotal Greenplum的创新速度发布产品。


Pivotal Greenplum 客户


“我们使用在AWS上运行的Greenplum构建了一个广告解决方案,给我们行业带来了巨大的变化。我们对于Greenplum 5具有的跨云功能和新分析能力感到非常兴奋,希望继续与Pivotal保持紧密的合作关系。”


—— John Conley, 数据仓库副总裁,Conversant.


合作伙伴


Pivotal Greenplum 5让我们的客户更加确信,支撑其业务发展的关键分析平台将持续改进和增强,不用担心供应商锁定。我们很多创新型和高要求的客户已经对这一重大版本表示出极大的兴趣。

—— Dan Feldhusen, 总裁,  ZData


Pivotal


“Pivotal Greenplum 5.0是一个巨大的进步。它是迄今为止最优秀的版本;它可以在任何环境中运行;它提供了一套令人难以置信的分析功能,为商业智能和机器学习提供动力。Greenplum不仅是数据仓库,而是一个数据平台。”

—— Elisabeth Hendrickson, 研发副总裁, Pivotal


本文分享自微信公众号 - Greenplum中文社区(GreenplumCommunity)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值