pyspark
leap_ruo
这个作者很懒,什么都没留下…
展开
-
pyspark中list转换dataframe
通过pandas来做转换。原创 2023-07-15 09:50:57 · 832 阅读 · 0 评论 -
pyspark报错:ValueError: object of IntegerType out of range
pyspark报错:ValueError: object of IntegerType out of range,长整型LongType原创 2023-02-04 19:48:41 · 286 阅读 · 0 评论 -
pyspark中DataFrame之间的join操作
在pyspark中加载sql之后,会经常遇到各DataFrame之间的join操作,以下给出集中join的调用方式。原创 2022-11-23 20:37:02 · 1819 阅读 · 0 评论 -
pyspark 并行调用udf函数
中我们使用pyspark定义好的udf逐条处理数据(dataframe)。这篇文章提供一种“并行”调用udf的方法。使用这种方式,会大大减少数据计算时间。其他补充,以下是几个常见的类型。原创 2022-11-22 20:36:54 · 723 阅读 · 0 评论 -
pyspark中udf写法及其使用
这里的不需要参数,是指udf不需要传入公共的参数(这个里的公共是对udf中多个参数模块而言的),且该参数非dataframe中的字段。udf是处理dataframe比较常见且便捷的功能模块,用户自定的处理功能封装在udf中,使得dateframe的处理变得通俗可控。...原创 2022-07-25 22:08:57 · 1336 阅读 · 0 评论 -
pyspark 中dataframe 按指定字段拆分为多列或者多行
在使用dataframe时,我们常常需要依据应用场景,需要将原来一条record拆分为多行(字段数增加1个,record增加),或者在一个record中根据已有字段拆分为多列(仍是1个record,字段数增加)这里还有另外一个问题,如果我们原始数据并没规律的以@分割的固定格式字段,或者原始数据中并没有事先准备好的array格式的字段,如何生成呢?这里个functions.explode和hive中的explode作用类似,可参考。中的explode使用。udf的使用,可以参见。......原创 2022-07-25 21:50:17 · 4093 阅读 · 0 评论 -
pyspark中dataframe 转化问题(panda、list等)
背景dataframe是pyspark中常见的数据类型,一般从load的sql中读取。有时候输入数据源并非sql,这时如何处理呢?具体转化示例list转化为dataframe先将list转化为 dataframeimport pandas as pddata_list = [['wer', 1], ['asd', 2]]panda_df = pd.DataFrame(data_list, columns=['col_name1', 'col_name2'])# 此处要注意panda和pand原创 2022-02-20 17:25:42 · 3945 阅读 · 0 评论 -
pyspark中where条件使用,单一匹配及多条件匹配
pyspark where各种条件书写 等于、与或非多个匹配条件 isindf_data = df_sql.where(column_1.isin('aaa', 'bbb'))原创 2021-04-17 22:04:48 · 6414 阅读 · 0 评论 -
pyspark 版本适配问题
Exception: Python in worker has different version 2.7 than that in driver 3.8, PySpark cannot run with different minor versions.Please check environment variables PYSPARK_PYTHON and PYPySpark cannot run with different minor versions.Please check environm原创 2020-12-28 12:02:07 · 1399 阅读 · 0 评论