在spark dataFrame 中使用 pandas dataframe

最新推荐文章于 2024-06-28 17:44:25 发布

breeze_lsw

最新推荐文章于 2024-06-28 17:44:25 发布

阅读量3.1k

点赞数 2

分类专栏： Spark 文章标签： spark pyspark pandas

本文链接：https://blog.csdn.net/lsshlsw/article/details/79814645

版权

Spark 专栏收录该内容

90 篇文章 7 订阅

订阅专栏

文章目录

背景

项	pandas	spark
工作方式	单机，无法处理大量数据	分布式，能处理大量数据
存储方式	单机缓存	可以调用 persist/cache 分布式缓存
是否可变	是	否
index索引	自动创建	无索引
行结构	Pandas.Series	Pyspark.sql.Row
列结构	Pandas.Series	Pyspark.sql.Column
允许列重名	否	是

pandas dataFrame 无法支持大量数据的计算，可以尝试 spark df 来解决这个问题。

xgboost 预测

优化前

import xgboost as xgb
import pandas as pd
import numpy as np

# 加载模型
bst = xgb.Booster()
bst.load_model("xxx.model")

# 变量列表
var_list=[...]
df.rdd.map(lambda x : cal_xgb_score(x,var_list,ntree_limit=304)).write.toDF()

# 计算分数
def cal_xgb_score(x,var_list,ntree_limit=50):
    feature_count = len(var_list)
    x1 = pd.DataFrame(np.array(x).reshape(1,feature_count),columns=var_list)
    # 数据变化操作
    y1 = transformFun(x1)
    
    test_x = xgb.DMatrix(y1.drop(['mobile','mobile_md5'],xais=1),missing=float('nan'))
    y1['score'] = bst.predict(test_x,ntree_limit=ntree_limit)
    y2 = y1[['mobile','mobile_md5','score']]
    return {'mobile': str(y2['mobile'][0]),'mobille_md5':str(y2['mobile_md5'][0]),'score':float(y2['score'][0])}

每条数据都转化为 pd，增加了额外开销。

优化后

def cal_xgb_score(x,var_list,ntree_limit=50):
    feature_count = len(var_list)
    //将 iterator 转为list 
    x1 = pd.DataFrame(list(x),columns=var_list)
    ...
    //将 pdf 转为字典
    return y1[['mobile','mobile_md5','score']].to_dict(orient='record')

toPandas

优化前

df.toPandas()

优化后

import pandas as pd
def _map_to_pandas(rdds):
    return [pd.DataFrame(list(rdds))]
    
def toPandas(df, n_partitions=None):
    if n_partitions is not None: df = df.repartition(n_partitions)
    df_pand = df.rdd.mapPartitions(_map_to_pandas).collect()
    df_pand = pd.concat(df_pand)
    df_pand.columns = df.columns
    return df_pand

# 98列，22W行，类型 array/string/Long/Int，分区 200
df = spark.sql("...").sample(False,0.002)

df.cache()
df.count()

# 原生的 toPandas 方法
%timeit df.toPandas()

# 分布式的 toPandas
%timeit toPandas(df)

#使用 apache arrow，spark 版本2.3以上
spark.sql("set spark.sql.execution.arrow.enabled=true")
%timeit df.toPandas()