![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
pyspark
语亦情非
进步是留给时间最好的礼物
展开
-
在Jupyter Notebook里运行PySpark
有两种方法配置PySpark driver,当运行pyspark命令就直接自动打开一个Jupyter Notebook,此时shell端不会打开 正常启动Jupyter Notebook,然后用findSpark的package(我选了这种)方法1:配置PySpark driver去~/.bashrc文件添加配置PySpark driver的环境变量export PYSPARK_...原创 2019-05-10 18:37:27 · 4683 阅读 · 6 评论 -
pyspark 自定义函数
一:自定义函数的一般流程# 1.创建普通的python函数def to_upper(s): if s is not None: return s.upper()# 2.注册自定义函数from pyspark.sql.functions import udffrom pyspark.sql.types import StringType#...原创 2019-05-25 00:38:33 · 2959 阅读 · 0 评论 -
python或pyspark,sql对一个dataframe,排序并排名
输入:输出:具体代码:一:纯python代码import pandas as pddata=pd.DataFrame({'c1':[5,8,3,3,4,1]})print(data)d1= data.sort_values(by='c1')d1['rank']=d1.rank(method='min').astype(int)print(d1)二:pyspa...原创 2019-05-16 17:30:52 · 6204 阅读 · 0 评论