pyspark运行加速方法思考（一）

最新推荐文章于 2024-05-12 21:57:36 发布

苟住别浪

最新推荐文章于 2024-05-12 21:57:36 发布

阅读量2k

点赞数 1

分类专栏： pyspark

本文链接：https://blog.csdn.net/qq_39290182/article/details/106610121

版权

pyspark 专栏收录该内容

6 篇文章 1 订阅

订阅专栏

pyspark运行优化

pyspark工作原理
工作中的联想
- 案例借鉴
总结

pyspark工作原理

在这里插入图片描述
在Driver端，通过Py4j实现在Python中调用Java的方法，即将用户写的PySpark程序”映射”到JVM中，例如，用户在PySpark中实例化一个Python的SparkContext对象，最终会在JVM中实例化Scala的SparkContext对象；在Executor端，则不需要借助Py4j，因为Executor端运行的Task逻辑是由Driver发过来的，那是序列化后的字节码，虽然里面可能包含有用户定义的Python函数或Lambda表达式，Py4j并不能实现在Java里调用Python的方法，为了能在Executor端运行用户定义的Python函数或Lambda表达式，则需要为每个Task单独启一个Python进程，通过socket通信方式将Python函数或Lambda表达式发给Python进程执行。语言层面的交互总体流程如下图所示，实线表示方法调用，虚线表示结果返回。

driver: pyspark脚本和sparkContext的jvm使用py4j相互调用;
由于driver帮忙把spark算子封装好了，执行计划也生成了字节码，一般情况下不需要python进程参与；
仅当需要运行UDF(含lambda表达式形式)时，将它委托给python进程处理，此时JVM和python进程使用socket通信。

工作中的联想

pyspark可以把很多常见的运算封装到JVM中,但是显然对于很多定制化工作，需要写好代码封装到JVM中，实现UDF的调用，加速数据的处理工作。

案例借鉴

首先我们需要用scala重写一下UDF：

object UdfUtils extends java.io.Serializable {

  case class Idfa(idfa: String, idfv: String) {
    private def coalesce(V: String, defV: String) =
      if (V == null) defV else V

    override def toString: String = coalesce(idfa, "-1") + "#" + coalesce(idfv, "-1")
  }

  def str2idfa(txt: String): Option[String] = {
    try {
      val decodeTxt: Array[Byte] = Base64.getDecoder.decode(txt)
      // TODO 省略一些处理逻辑
      val str = "after_some_time"
      val gson = new Gson()
      val reader = new JsonReader(new StringReader(str))
      reader.setLenient(true)
      val idfaType: Type = new TypeToken[Idfa]() {}.getType
      Some(gson.fromJson(reader, idfaType).toString)
    }
    catch {
      case e: Throwable =>
        println(txt)
        e.printStackTrace()
        None
    }
  }
  // 关键是这里把普通函数转成UDF:
  def str2idfaUDF: UserDefinedFunction = udf(str2idfa _)

然后在pyspark脚本里调用jar包中的UDF:

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import sys
from pytoolkit import TDWSQLProvider, TDWUtil, TDWProvider
from pyspark import SparkContext, SQLContext
from pyspark.sql import SparkSession, Row
from pyspark.sql.types import StructType, LongType, StringType, StructField, IntegerType
from pyspark.sql.functions import udf, struct, array
from pyspark.sql.column import Column
from pyspark.sql.column import _to_java_column
from pyspark.sql.column import _to_seq
from pyspark.sql.functions import col

def str2idfa(col):
    _str2idfa = sc._jvm.com.tencent.kandian.utils.UdfUtils.str2idfaUDF()
    return Column(_str2idfa.apply(_to_seq(sc, [col], _to_java_column)))


spark = SparkSession.builder.appName(app_name).getOrCreate()
sc = spark.sparkContext
if __name__ == '__main__':
    in_provider = TDWSQLProvider(spark, user=user, passwd=passwd, db=db_name)
    in_df = in_provider.table('t_dw_dcxxxx', ['p_2019042100'])  # 分区数组
    print(in_df.columns)
    in_df.createOrReplaceTempView("t1")
    out_t1 = in_df.select(col('uin')
                          , str2idfa(col("value"))) # 直接使用scala的udf,节省43%时间,减少两个transform
    print(out_t1.columns)
    print(out_t1.take(10))

其中_jvm变量是sparkContext中JVMView对象的名字,此外sc中还有_gateway变量以连接JVM中的GatawayServer。
提交时，在tesla上的配置spark-confjar包路径:

spark.driver.extraClassPath=pipe-udf-1.0-SNAPSHOT-jar-with-dependencies.jar
spark.executor.extraClassPath=pipe-udf-1.0-SNAPSHOT-jar-with-dependencies.jar

总结

在pyspark中尽量使用spark算子和spark-sql，同时尽量将UDF(含lambda表达式形式)封装到一个地方减少JVM和python脚本的交互。
可以把UDF部分用scala重写打包成jar包，其他部分则保持python脚本以获得不用编译随时修改的灵活性，以兼顾性能和开发效率

苟住别浪

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
pyspark运行加速方法思考（一）

pyspark运行优化pyspark工作原理工作中的联想案例借鉴总结pyspark工作原理如上图所示，pyspark并没有像dpark一样用python重新实现一个计算引擎，依旧是复用了scala的jvm计算底层，只是用py4j架设了一条python进程和jvm互相调用的桥梁。driver: pyspark脚本和sparkContext的jvm使用py4j相互调用; executor:由于driver帮忙把spark算子封装好了，执行计划也生成了字节码，一般情况下不需要python进程参与；仅
复制链接

扫一扫