大数据
DDDknight1109
这个作者很懒,什么都没留下…
展开
-
python环境下pyspark的udf的坑
针对pyspark的dataframe可以利用aggregation进行统计计算,而默认的算子目前只有sum, avg, max, min, count, approx_distinct_count。这对于需要利用pyspark开发类似于Kibana这样的数据分析平台的开发人员来说是个头疼的问题。好消息是,pyspark的dataframe和SQL一样,自带了UDF(User self-Def...原创 2020-01-02 19:50:08 · 2588 阅读 · 2 评论 -
关于pyspark的collect
collect是pyspark中可以将rdd转换为list的转换操作,虽然很好用,但也需要注意,不是可以随心所欲地用的。collect的读取相当于从所有分布式机器上把数据拉下来放在本地展示:这个操作一方面把分布式变成了单机操作,失去了分布式的意义;另一方面就是存放本地会消耗相当一部分的内存;当rdd很大时,内存溢出会直接导致程序卡死。所以如果只想看看数据格式,用take取样就可以了...原创 2019-09-24 20:54:25 · 4747 阅读 · 1 评论