了解更多Greenplum技术干货,欢迎访问Greenplum中文社区网站
引言
本文将介绍一个全新的基于Greenplum的R语言开发函数库Greenplum R。Greenplum R提供了gpapply和gptapply两个函数,可以把R语言的程序发送至Greenplum端并行执行,从而避免数据的移动和提高R语言的执行效率。
R语言是一个开源的专注于统计分析的程序设计语言,具有丰富的统计分析扩展,在大数据浪潮中,R语言也被数据分析师广泛的应用于大数据分析中。各大数据平台也加强了对R语言的支持。
Greenplum大数据分析平台对R语言有良好的支持。在Greenplum中可以使用两种方式使用R语言进行数据分析,一种是使用ODBC连接到Greenplum数据库读取数据,另一种是编写PL/R的用户定义函数(User Defined Function, UDF)。这两种方式各自有优缺点,第一种方式不需要学习PL/R的特殊的语法,仅仅需要编写标准的R语言程序,但是缺点也是很明显的,需要把数据从Greenplum读取到客户端进行计算,这样的话既需要做数据移动又无法发挥Greenplum并行计算的优势;第二种方式不需要移动数据,而且可以使R程序并行执行,但是用户需要学习PL/R的语法,并且使用PL/R编写的用户定义函数(UDF)不易于调试。
那么有没有一个两全其美的方法呢?