spark
spark
灯下夜无眠
这个作者很懒,什么都没留下…
展开
-
pyspark自定义UDF函数
当遇到一些复杂特殊的计算场景时,只通过pyspark的内置函数无法达到我们想要实现的效果,此时,可通过自定义函数然后注册为UDF函数,就能够很好的解决复杂计算场景问题,且计算效率非常快速。计算5000多万数据,仅需一分钟不到,效率非常高。原创 2024-02-26 09:09:23 · 697 阅读 · 0 评论 -
spark超大数据批量写入redis
利用spark的分布式优势,一次性批量将7000多万的数据写入到redis中。执行时间可能跟资源环境有关,测试整个过程大概只需要5分钟左右,非常快速。原创 2024-02-23 09:16:45 · 595 阅读 · 0 评论 -
pyspark统计指标计算
下面介绍如何使用pyspark处理计算超大数据的统计指标,主要为:最大值、最小值、均值、方差、标准差、中位数、众数、非重复值等。原创 2024-02-22 15:37:56 · 405 阅读 · 0 评论