pyspark运行流程
服务器搭建Spark
今天是2021.10.31。天气小雨,本来时周末,实在是没啥事就来实验室了,这周我主要是书写数据分析部分的程序。程序写好之后,我需要去服务器跑数据。需要的文件我都上传 (需要两个币,哈哈哈哈 )
https://download.csdn.net/download/qq_38833931/35869210
准备软件 xshell 7 主要执行命令行
准备winscp 可视化文件管理查看软件 非常好
需要用到的软件包 anaconda spark Hadoop jdk
我简单汇总一下我的流程,需要的可以参考
第一步是查看你的java环境有无:
有时候系统会自己带,有时候没有,命令创建下输入 java -version
切记注意不要下载高版本的jdk spark不能用
有的话就不用管,我简单说一下没有的话怎么办,下载好JDK后解压到你随便指定路径
先不管 暂时放着 完事装需要的python,我们需要python包的管理器anaconda,原装python当然可以,只不过涉及文件复制,麻烦点,那么conda就解决这个问题了,下载Anaconda3-2021.05-Linux-x86_64.sh 然后在终端执行 bash Anaconda3-2021.05-Linux-x86_64.sh 一路enter就行
下一步安装 spark和hadoop 下载这两个文件 百度就行 完事解压到目录下
解压 命令是unzip 文件名
会出现这两个文件夹
最重要的就是书写环境变量脚本
注意更换你的文件路径
执行 bash setenv.sh
这样就可以直接运行程序了
**如果出现那个用到的包没有 直接pip install 包名
比如 pip install findspark
用spark 开头必须写
import findspark
findspark.init()
因为我们装了conda 所有有了pip包