Pyspark使用报错总结

最新推荐文章于 2024-02-04 12:23:30 发布

新入门大数据的女程序员

最新推荐文章于 2024-02-04 12:23:30 发布

阅读量942

点赞数

分类专栏：问题汇总文章标签： spark 大数据 big data

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/snowflakeying/article/details/121011032

版权

udf使用：

问题：

不能传入一个df，udf中使用另一个udf，这将抛出一个错误TypeError: cannot pickle '_thread.RLock' object

解决：

使用join的大于小于过滤条件

df1.join(df2, on=[(df2.timestamp > df1.start) & (df2.timestamp < df1.end)]) \ .groupby('start', 'end', 'event_name') \ .agg(F.mean('measurement').alias('avg')) \ .show()

问题：

pysaprk struct类型作为key的map不能转成dict的key

python对key进行哈希函数运算，根据计算的结果决定value的存储地址，所以字典是无序存储的，且key必须是可哈希的。可哈希表示key必须是不可变类型，如：数字、字符串、元组。

字典(dictionary)是除列表意外python之中最灵活的内置数据结构类型。列表是有序的对象结合，字典是无序的对象集合。两者之间的区别在于：字典当中的元素是通过键来存取的，而不是通过偏移存取。

PickleException: expected zero arguments for construction of ClassDict for pyspark.sql.dtypes._create_row

貌似是由于返回值

最低0.47元/天解锁文章

新入门大数据的女程序员

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Pyspark使用报错总结

udf使用：问题：不能传入一个df，udf中使用另一个udf，这将抛出一个错误TypeError:cannotpickle'_thread.RLock'object解决：使用join的大于小于过滤条件df1.join(df2, on=[(df2.timestamp > df1.start) & (df2.timestamp < df1.end)]) \ .groupby('start', 'end', 'event_name') \ .agg(F.mean('...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。