Ubuntu上安装Anaconda

7. Anaconda

前提是要安装好hadoop集群+spark集群,参考地址Ubuntu安装hadoop集群 hive spark scala_ROBOT玲玉的博客-CSDN博客

7.1安装

  下载Anaconda3-2021.05-Linux-x86_64.sh

下载地址:https://repo.anaconda.com/archive/index.html

执行命令:bash Anaconda3-2021.05-Linux-x86_64.sh -b

设置环境变量  vi /etc/profile,添加如下

#anaconda3

export PATH=/home/cyuser/anaconda3/bin:$PATH

export ANACONDA_PATH=/home/cyuser/anaconda3

export PYSPARK_DRIVER_PYTHON=$ANACONDA_PATH/bin/ipython

export PYSPARK_PYTHON=$ANACONDA_PATH/bin/python

生效环境变量source /etc/profile

注意:三个节点的服务器均要进行以上设置

验证设置是否成功

执行python –version

注意:有时环境变量设置不成功,也能显示python版本,要进入到如下目录,执行./python --version确定一下,版本是否一致

7.2测试

    1. 修改默认的web地址,执行jupyter notebook --generate-config命令生成配置文件。

   修改jupyter_notebook_config.py

添加如下:c.NotebookApp.ip='server1'

说明:其中server1表示的为服务器的名称

    1. 新建文件夹~/pythonwork/ipynotebook,进入到该文件目录下,运行pyspark命令:

PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" pyspark

测试:访问地址http://server1:8888/

新建python文件

打开python文件,执行如下:

from pyspark.sql import SparkSession

spark = SparkSession.builder.master("yarn").enableHiveSupport().appName("Correlation").getOrCreate()

#日志输出级别

spark.sparkContext.setLogLevel("Error")

f=spark.sparkContext.textFile("hdfs://server1:9000/input/test.txt")

f.count()

spark.sparkContext.master

说明:输出local[*]表示此时的spark运行模式

    1. 以yarn模式运行命令

PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" SPARK_HOME=/home/cyuser/spark-3.0.0-bin-hadoop3.2  HADOOP_CONF_DIR=/home/cyuser/hadoop3.1.0/etc/hadoop MASTER=yarn-client pyspark

再次执行上面的notebook中的python,内容,其中spark.sparkContext.master输出的为yarn,表示已经成功使用yarn模式执行。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值