「揭秘GP」Greenplum 的人工智能应用场景:MADlib、GPText、GPU

本文介绍了Greenplum数据库的高级分析功能,特别是其内置的机器学习库MADlib和文本处理组件GPText。MADlib提供多种机器学习算法,如支持向量机、逻辑回归等,可在数据库内直接进行模型训练和预测,提高数据处理效率。同时,Greenplum正尝试集成GPU加速的深度学习算法,以支持更大规模的数据分析。GPText则允许对非结构化文本进行快速索引和检索,结合MADlib进行文本分析,实现结构化和非结构化数据的完美结合。
摘要由CSDN通过智能技术生成

了解更多Greenplum技术干货,欢迎访问Greenplum中文社区网站

Pivotal Greenplum ——全世界首个开源、多云数据平台,专为高级分析而打造。作为一个开放的数据计算平台,它集成了对数据进行挖掘和分析的高级功能,通过这些功能,用户可以直接在Greenplum数据库里使用高级分析算法,对数据进行分析和处理。

本篇文章将从最近较热的人工智能应用场景说起,详细为大家介绍如何运用Greenplum的内置算法进行机器学习,帮助企业或用户从1到N,快速处理分析海量数据,获得行业洞察。


Greenplum库内集成的高级分析功能

首先来讲Greenplum,我相信大家对Greenplum多少有些了解。Greenplum是一个MPP架构的分布式数据库,其特点是可以做非常大规模的数据计算,它可以在几百个节点的服务器规模的集群内做数据的拓展,并且可以在PB级,就是一千个T或者几千个T的数据容量上,做快速的数据存储和计算。传统来讲,它是一个数据库,但实质上Greenplum不只是一个数据库,因为我们在库内集成了很多高级分析的功能。这些高级分析的功能,可以使用户更方便的使用数据,因为数据本身要进行挖掘才能产生价值,对于传统的友商,比如说像Oracle、MySQL或者SQLServer这样的数据库产品来讲,它可能只是一个数据库,您只能对数据进行传统的,基于SQL的分析。但在Greenplum,作为一个开放的数据计算平台,我们在库内集成了非常多的数据挖掘和分析功能,通过这些功能,您不再需要把数据从库内拿出来,直接在Greenplum数据库里就可以使用高级分析算法,对数据进行分析和处理。

在Greenplum内部我们集成了对地理信息的处理算法包、对文本处理的组件、对Python或者R等一些数据科学家使用的算法包、图计算算法包以及机器学习的算法包等等。今天重点要介绍的就是Greenplum库内集成的机器学习算法包和文本处理组件。通过这种库内的集成算法,客户可以直接在库内对数据进行挖掘,不用把数据搬进搬出数据库,从而提高数据的使用效率,降低数据挖掘的成本。

目前Pivotal研发人员正在试图实现对集成深度学习算法库内集成,接下来我们一起看下Greenplum目前在对机器学习领域的已有功能以及正在研发的路线图。

可扩展的机器学习算法库:MADlib

在Greenplum里面集成的基于机器学习或者人工智能分析的算法包,叫MADlib。您也许听说过MADlib扩展包,这个扩展包已经是apache基金会顶级开源项目,这个组件里面集成了大量的基于传统数学分析统计的算法、图计算的算法以及一些常见的机器学习的算法。

MADlib 可扩展的机器学习算法库

这个算法库直接在库内集成,您可以直接到MADlib.apache.org 的网站上下载,然后在Greenplum或者Postgres数据库里部署。因为Greenplum是跟Postgres社区是深度整合的,所以我们这个MADlib算法库会提供Postgres和Greenplum的版本。

MADlib的发展历程

简单说一下MADlib的发展历程。 MADlib是Pivotal从2011年就开始的产研结合项目,公司跟UC伯克利大学的Hellerstein教授一起合作开发的。到今天为止,包括UC伯克利、斯坦福、维斯康辛、佛罗里达大学等众多知名高校中的很多教授或科研人员,都加入了这个项目,为它做出持续的贡献&#x

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值