pyspark
文章平均质量分 50
栗子呀!
这个作者很懒,什么都没留下…
展开
-
anaconda3环境整体打包放在Spark集群上运行
一、将虚拟Python环境打包创建好环境后,进入到环境所在的文件夹,例如环境是/home/hadoop/anaconda3/envs, cd到envs下,使用打包命令将当前目录下的文件打成zip包:cd /home/hadoop/anaconda3/envszip -r py37.zip py37YARN集群配置Python环境在开始安装YARN及Spark集群的时候,可以将对应Python软件包、依赖模块,在YARN集群中的每个节点上进行安装。这样,YARN集群的每个NodeManager上都原创 2021-01-26 14:17:46 · 1833 阅读 · 0 评论 -
linux利用anaconda配置python虚拟环境
1.需要安装Anaconda时,要确定安装版本,推荐安装高版本,因为能切换到低版本wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.0.0-Linux-x86_64.sh2.安装Anacondabash Anaconda3-5.0.0-Linux-x86_64.sh敲回车,敲上几个之后,我们能看到输入yes or no ,输入完yes 后,开始安装所有python的第三方类库安装完成之后,我们能看到如原创 2021-01-26 13:52:27 · 482 阅读 · 0 评论 -
pyspark编写UDF函数
pyspark 编写 UDF函数pyspark udf1、先定义一个函数,例如:def get_time(ts): try: res = datetime.fromtimestamp(int(ts)).strftime('%Y-%m-%d') return res except: return '' else: return ''2、udf的注册,这里需要定义其返回值类型,可从pyspark.sql.types原创 2021-01-08 18:50:31 · 3531 阅读 · 0 评论