spark
Panghu26
这个作者很懒,什么都没留下…
展开
-
[pyspark] 尽量用reduceByKey而不用groupByKey
最近工作的时候写了一段python操作spark的代码,![这里写图片描述](http://img.blog.csdn.net/20170605202125612?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvc2ZfemhhbmcyNg==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70原创 2017-06-05 20:22:01 · 6195 阅读 · 2 评论 -
[pyspark] pyspark使用记录
以下不定时记录一些pyspark使用过程中的心得、备忘、注意事项等。reduceByKey: 尽量使用reduceByKey来替代groupByKey, 用reduceByKey时先把数据整理成(key, value)对 (出于性能的考虑)coalesce: coalesce(1)之前,尤其是存下来的文件比较大时,最好先count()一下读入文件: 多个文件路径用逗号’,’隔开原创 2017-07-02 17:18:29 · 707 阅读 · 0 评论