pyspark
文章平均质量分 66
离谱、
喜欢编程,正在学习机器学习,数据挖掘
展开
-
利用pyspark评估lightgbm模型
1.打包conda虚拟环境(1)cd到conda虚拟环境目录cd /home/work/.conda/envs(2)把虚拟环境打包zip -r -q lgb.zip light_gbm/(3)把打包好的虚拟环境上传到hdfshadoop fs -put lgb.zip /tmp/lip038/lgb_envs2.评估代码import osos.environ['PYSPARK_PYTHON'] = './light_gbm/light_gbm/bin/python'from pys原创 2020-09-15 21:19:09 · 1764 阅读 · 1 评论 -
pyspark dataframe数据分析常用算子
不断更新1.filter(1)单条件过滤data = df.filter(df['age'] == 20))或者data = df.filter('age = 20')(2)多条件过滤data = df.filter((df['age'] == 20) | (df['gender'] == 'male'))...原创 2020-02-22 12:30:32 · 3175 阅读 · 0 评论 -
pyspark中udf传参数
以一个简单的例子介绍如何使用udf进行参数的传递:首先创建一个简单的dataframedf = spark.createDataFrame([ (1, 100, 320), (2, 135, 400), (3, 140, 380), (4, 120, 500), (5, 130, 300), ...原创 2019-11-09 20:29:28 · 4973 阅读 · 3 评论