我使用的是齐柏林连接远程星团。
远程Spark正在使用系统python 2.7。
我想切换到miniconda3,安装lib pyarrow。
我要做的是:
下载miniconda3,安装一些libs,scp miniconda3文件夹到spark master和slaves。
添加
PYSPARK_PYTHON="/usr/local/miniconda3/bin/python"
到
spark-env.sh
在火花主和奴隶。
重新启动Spark和Zeppelin
运行代码
%火花.pyspark
import pandas as pd
from pyspark.sql.functions import pandas_udf,PandasUDFType
@pandas_udf(df.schema, PandasUDFType.GROUPED_MAP)
def process_order_items(pdf):
pdf.loc[:, 'total_price'] = pdf['price'] * pdf['count']
d = {'has_discount':'count',
'clearance':'count',
'count': ['count', 'sum'],
'price_guide':'max',
'total_price': 'sum'
}
pdf1 = pdf.groupby(&