如何安装并使用pyspark

1. Anaconda的安装

      (1)我们要把本地Anaconda上传到Linux上,我们使用xshell中的文件传输,它会自己运行xftp,前提是我们要有xftp


上传后我们来运行这个文件,但我在运行过程中它提示我要安装一个bzip2的东西,我这里就先写一下吧

   (2)安装bzip2

         安装软件要切换到root用户下才能够使用,因为普通用户没这个权限

         在root用户下输入  yum -y install bzip2

                 

       然后我们退出root用户,开始来安装Anaconda  bashAnaconda3-5.0.1-Linux-x86_64.sh了,

                    

                      

                                 

                      

            在这里等待一段时间

              

           看到这个就说明我们安装好了Anaconda3了

              

         然后来更新下环境变量

            

         接着我们来看下我们的python版本

         

     看到python3版本就说明我们当前的python版本是python3,这个python在Anaconda3中

2. 安装spark

         (1) 使用xshell和xftp来把这个spark版本导入到hadoop用户下并解压到opt目录下

          (2)配置spark的环境变量,这个环境配置和之前的jbk和hadoop配置一样,也是在spark目录下声明一个变量,将当前路径赋给该变量,这里我就不多说,可以看我之前写的如何配置hadoop环境的写法。它只有SPARK_HOME和PATH,将之前我配置的环境变量稍微改下就行了,这没有SPARK_CONF_DIR,这点要记住

               使得hadoop用户下的.bashrc文件有spark的环境设置


看到这个后,更新下环境变量,source ~/.bashrc

   (2)然后我们输入spark-shell


看到上面这个就说明我们的spark能运行了

3. 使用notebook

          (1)在使用之前要先开启hadoop

                  使用  start-dfs.sh  回车

          (2)输入  jupyter-notebook  -- ippython2

               这里这个python是我们的的主机名,如果主机名错误的话它也不会启动,我们来输入这个命令,就会看到以下内容:


 把这个链接赋值下拿到浏览器中去访问,我们就会看到

           

点击我们箭头指向的地方的文件,就会看到以下东西,当然这个代码是我自己打的,我们要把这段代码复制上去,然后运行一下

就会看到如箭头所指的地方出来这东西,说明我们能在这使用spark了,记住,我们现在敲的代码是python代码,具有python风格,但其中也有spark的内容在其中


            

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值