![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
pyspark
bra_ve
这个作者很懒,什么都没留下…
展开
-
Pyspark系列笔记--如何成功join不同的pyspark dataframe
前言最近在研究pyspark,用到的主要是pyspark的sql模块和ml模块。 既然用到sql模块,便免不了要涉及dataframe。 至于dataframe的基本操作,大家可以自行百度或者必应,很容易上手的啦。 但是坑很多,要慢慢调,要耐心。上次讲到了pyspark的dataframe如何做词向量,详情参见Pyspark系列笔记–如何在一个pysprk Dataframe上训练w...原创 2018-03-15 19:14:20 · 16579 阅读 · 0 评论 -
Pyspark系列笔记--错误Unable to acquire XXXXX bytes of memory
前言实验环境: pyspark 1.5.0 python 2.7今天依然在学习pyspark,感觉真的是在天天写bug… 今天又遇到了一个非常坑爹的错误。Step1. 我在一个全新的Dataframe上面应用自己的一个函数,这个函数测试通过。Step 2. 对这个DataFrame做了几次计算以及join以后,发生了错误:Unable to acqui...原创 2018-03-16 18:06:12 · 2479 阅读 · 0 评论 -
Pyspark系列笔记--使用pyspark进行spark-submit
前言实验环境: 1.pyspark 1.5.0 2.python 2.7本次主要写的是用pyspark提交任务时,需要注意的地方及遇到的问题的解决。Step 1. 提交python工程在提交spark的时候,我们往往python工程是多个python文件,彼此之间有调用关系。 那如何提交python工程呢? ./bin/spark-submit –py-...原创 2018-03-17 12:02:06 · 11922 阅读 · 0 评论 -
Pyspark系列笔记--如何在一个pysprk Dataframe上训练word2vec模型
前言本次试验环境: spark-1.5.0 python-2.7Step 1. Create a dataframe use a json file 值得注意的事 json格式要求每一行为一个json串,即json串不能跨行。支持json格式处理的有jq插件。可参考这一篇关于jq插件的博客。print('读取json文件...')from py...原创 2018-03-13 20:13:28 · 2913 阅读 · 1 评论 -
Spark
背景最近在使用spark做一些图算法方面的工作,遇到了一些spark性能优化方面的坑,折腾了好久,最后通过各方面的努力,包括与同事讨论,阅读spark相关的原始论文,stackoverflow提问,google检索等,解决了一些,这里开个系列,总结相关内容。本博文是该系列第一篇,分享一个之前一直没有注意的事情,cache/persist后的rdd,没有使用就unpersist,等于白干。下面看...转载 2018-04-08 09:36:54 · 193 阅读 · 0 评论