对pyspark的一些理解

曾经用scala开发过spark,但是这语言实在太难用了,语法糖太多。虽然有人说这是一种优雅的写法,但我难于接受。后来就转成用java跟python开发spark。由于pandas的dataframe跟spark的dataframe在开发上有很多相似之处,而且用python开发spark可以写一步看一步,个人还是挺喜欢用python开发非streaming的spark的程序(streaming用java开发)。
1.pyspark背后的一些原理:
为了保证Spark核心实现的独立性,Spark实现的python接口仅在外围做包装,实现对不同语言的开发支持

在这里插入图片描述
pyspark的调用大体如上图:
1).在driver端python通过py4j调用JVM
2).spark的driver驱动executor
3).executor的jvm通过socket驱动Python进程

2.pyspark的编程技巧
pyspark的编程我都是采用面向sql的编程(相应的另一种是面向对象的编程)。
其中又分为DSL风格、SQL风格
1)DSL风格(跟pandas类似):

from pyspark.sql import SparkSession
from pyspark.sql import functions as pyfun
import pyspark.sql.types as pytype
#上面pyfun代表了所有pyspark的自定义函数,pytype代表pyspark所有自定义类型
df=sparkSession.sql(" select * from table ")#用sparkSession读取数据
df.cache()#缓存
df=df.filter(xx)
df=df.withColumn('newColumn',pyfun.abs(df.column1))#相当于map一个新字段
df.groupBy('newColumn').agg({'count':pyfun.count}).show()##聚合,获取结果

以上,代表了DSL风格编程
2)SQL风格编程

df=sparkSession.read.csv(['/user/hive/warehouse/db.db/table1'],sep=',')
df.createGlobalTempView('tbl')
sparkSession.sql("SELECT min(create_at) FROM global_temp.tbl").show()

可以看出,spark sql通过createGlobalTempView先注册一个view,然后像sql一样操作view。

3.在pyspark中使用自定义函数。
在pyspark中使用自定义函数是一项最耗费资源的性能的操作,因为数据要在JVM与python解释器中序列化与反序列化。
优化1:
从Spark 2.3版本开始,引入了Apache Arrow。
Apache Arrow是一个跨语言、跨平台的内存数据结构。Arrow的跨语言特性表示在Arrow的规范中,作者指定了不同数据类型的layout,包括不同原始数据类型在内存中占的比特数,Array数据的组成以及Null值的表示等等。根据这些定义后,在不同的平台和不同的语言中使用Arrow将会采用完全相同的内存结构,因此在不同平台间和不同语言间进行高效数据传输成为了可能。Arrow由于根据规范在内存中的数据结构一致,可以通过共享内存, 内存映射文件等技术来共享Arrow内存结构,省去了序列化与反序列过程。

@pyfun.pandas_udf(pytype.IntegerType())
def multiply_func(a, b):
    return a * b
df=df.withColumn('new_col',multiply_func(df.colA,df.colB))

优化2:
用python去调用scala的自定义函数。此法为终极解决办法,比用Apache Arrow更高效。
步骤有3个:
1).在scala工程上创建一个UDF

import org.apache.spark.sql.expressions.UserDefinedFunction
import org.apache.spark.sql.functions._
object ScalaPySparkUDFs  {
def pluseFunction(x:Int,y:Int):Int={x+y}
def pluse():UserDefinedFunction=udf(pluseFunction _)
}

2).导出jar包并在spark-submit中加上:–jars ETL-assembly-1.0.jar
3). 在pyspark中注册 scala udf函数并使用

from pyspark.sql.column import Column, _to_java_column, _to_seq
def get_pluseFunction_udf(col1,col2):
    pluseFunction_tmp = sparkContex._jvm.com.xxx.ScalaPySparkUDFs.pluseFunction()
    return Column(pluseFunction_tmp .apply(_to_seq(sc, [col1,col2], _to_java_column)))
df=df.withColumn('new_col',get_pluseFunction_udf(df.colA,df.colB))
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值