对pyspark的一些理解

最新推荐文章于 2022-10-26 16:12:31 发布

sanbudeyu_008

最新推荐文章于 2022-10-26 16:12:31 发布

阅读量458

点赞数

文章标签： spark pyspark spark sql

本文链接：https://blog.csdn.net/sanbudeyu_008/article/details/103177907

版权

曾经用scala开发过spark，但是这语言实在太难用了，语法糖太多。虽然有人说这是一种优雅的写法，但我难于接受。后来就转成用java跟python开发spark。由于pandas的dataframe跟spark的dataframe在开发上有很多相似之处，而且用python开发spark可以写一步看一步，个人还是挺喜欢用python开发非streaming的spark的程序(streaming用java开发)。
1.pyspark背后的一些原理:
为了保证Spark核心实现的独立性，Spark实现的python接口仅在外围做包装，实现对不同语言的开发支持

在这里插入图片描述
pyspark的调用大体如上图：
1).在driver端python通过py4j调用JVM
2).spark的driver驱动executor
3).executor的jvm通过socket驱动Python进程

2.pyspark的编程技巧
pyspark的编程我都是采用面向sql的编程(相应的另一种是面向对象的编程)。
其中又分为DSL风格、SQL风格
1）DSL风格(跟pandas类似):

from pyspark.sql import SparkSession
from pyspark.sql import functions as pyfun
import pyspark.sql.types as pytype
#上面pyfun代表了所有pyspark的自定义函数，pytype代表pyspark所有自定义类型
df=sparkSession.sql(" select * from table ")#用sparkSession读取数据
df.cache()#缓存
df=df.filter(xx)
df=df.withColumn('newColumn',pyfun.abs(df.column1))#相当于map一个新字段
df.groupBy('newColumn').agg({'count':pyfun.count}).show()##聚合,获取结果

以上，代表了DSL风格编程
2)SQL风格编程

df=sparkSession.read.csv(['/user/hive/warehouse/db.db/table1'],sep=',')
df.createGlobalTempView('tbl')
sparkSession.sql("SELECT min(create_at) FROM global_temp.tbl").show()

可以看出，spark sql通过createGlobalTempView先注册一个view，然后像sql一样操作view。

3.在pyspark中使用自定义函数。
在pyspark中使用自定义函数是一项最耗费资源的性能的操作，因为数据要在JVM与python解释器中序列化与反序列化。
优化1:
从Spark 2.3版本开始，引入了Apache Arrow。
Apache Arrow是一个跨语言、跨平台的内存数据结构。Arrow的跨语言特性表示在Arrow的规范中，作者指定了不同数据类型的layout，包括不同原始数据类型在内存中占的比特数，Array数据的组成以及Null值的表示等等。根据这些定义后，在不同的平台和不同的语言中使用Arrow将会采用完全相同的内存结构，因此在不同平台间和不同语言间进行高效数据传输成为了可能。Arrow由于根据规范在内存中的数据结构一致，可以通过共享内存, 内存映射文件等技术来共享Arrow内存结构，省去了序列化与反序列过程。

@pyfun.pandas_udf(pytype.IntegerType())
def multiply_func(a, b):
    return a * b
df=df.withColumn('new_col',multiply_func(df.colA,df.colB))

优化2：
用python去调用scala的自定义函数。此法为终极解决办法，比用Apache Arrow更高效。
步骤有3个：
1).在scala工程上创建一个UDF

import org.apache.spark.sql.expressions.UserDefinedFunction
import org.apache.spark.sql.functions._
object ScalaPySparkUDFs  {
def pluseFunction(x:Int,y:Int):Int={x+y}
def pluse():UserDefinedFunction=udf(pluseFunction _)
}

2).导出jar包并在spark-submit中加上：–jars ETL-assembly-1.0.jar
3). 在pyspark中注册 scala udf函数并使用

from pyspark.sql.column import Column, _to_java_column, _to_seq
def get_pluseFunction_udf(col1,col2):
    pluseFunction_tmp = sparkContex._jvm.com.xxx.ScalaPySparkUDFs.pluseFunction()
    return Column(pluseFunction_tmp .apply(_to_seq(sc, [col1,col2], _to_java_column)))
df=df.withColumn('new_col',get_pluseFunction_udf(df.colA,df.colB))