spark python3.6_python spark环境配置

在配置Hadoop之前,应该先做以下配置

1.更改主机名

首先更改主机名,目的是为了方便管理。

输入:hostname

查看本机的名称

使用 hostname 修改当前主机名。

hostname test1

然后输入:vim /etc/sysconfig/network

修改主机名称

将HOSTNAME 的名称更改为你想要设置的名称

注:主机名称更改之后,要重启(reboot)才会生效。

输入:vim /etc/hosts

添加 主机IP 和对应的主机名称,做映射。

注:在配置文件中使用主机名的话,这个映射必须做!

2.关闭防火墙

查看状态

firewall-cmd --state

关闭防火墙,方便外部访问。

CentOS 7版本以下输入:

#关闭防火墙

service   iptables stop

CentOS 7 以上的版本输入:

systemctl   stop   firewalld.service

3.时间设置

输入:date

查看服务器时间是否一致,若不一致则更改

更改时间命令

date -s ‘MMDDhhmmYYYY.ss’

1.tar -zxvf jdk-8u91......     -C  ~/app

vi ~/.bash_profile

加上

source ~/.bash_profile

echo $JAVA_HOME  #检查

2.tar -zxvf scala......     -C  ~/app

vi ~/.bash_profile

加上

source ~/.bash_profile

echo $SCALA_HOME  #检查

3.tar -zxvf hadoop-2.6.0......     -C  ~/app

vi ~/.bash_profile

加上

source ~/.bash_profile

echo $HADOOP_HOME #检查

cd /root/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop

vim hadoop-env.sh

加上

vim core-site.xml

将补充

fs.default.name  这是配置HDFS中节点的URL,在文件系统中,每一个节点都有自己的URL,通过URL才能在整个分布式系统中管理和查询到此节点。集群里面的每一台机器都需要知道NameNode的地址。DataNode结点会先在NameNode上注册,这样它们的数据才可以被使用。独立的客户端程序通过这个URI跟DataNode交互,以取得文件的块列表。

hadoop.tmp.dir 是hadoop文件系统依赖的基础配置,很多路径都依赖它。如果hdfs-site.xml中不配置namenode和datanode的存放位置,默认就放在这个路径中

kvm是主机名,9000是RPC通信端口

vim hdfs-site.xml

dfs.replication 它决定着系统里面的文件块的数据备份个数,此数值一般不大于从机的个数。

dfs.name.dir 是设置NameNode的数据存放的本地路径

dfs.data.dir 是设置DataNode的数据存放的本地路径

dfs.http.address是设置NameNode的tracker页面监听地址和端口

cp mapred-site.xml.template  mapred-site.xml

vi mapred-site.xml

vi yarn-site.xml

node1为主机名

cd /root/app/hadoop-2.6.0-cdh5.7.0/bin

./hadoop namenode -format

检查下这里面里有没有多了东西了

cd /root/app/hadoop-2.6.0-cdh5.7.0/sbin

./sbin/start-all.sh       或者./sbin/start-dfs.sh           # ./sbin/stop-all.sh(关闭集群)

(如果在~/.bash_profile加上HADOOP_HOME/sbin,就可以去掉sbin/)

如下图说明启动成功

免密登录

启动和停止 Hadoop 都会让你输入四次当前服务器的密码。因此我们需要配置免密码登录服务器。

1.ssh-keygen -t rsa

~/.ssh文件里会生成

2.cd ~/.ssh

cat id_rsa.pub>>authorized_keys

就可以了 ,可以用ssh localhost测试下

4.tar -zxvf  apache-maven-3.3.9-bin.tar.gz   -C  ~/app

vim ~/.bash_profile

source ~./bash_profile

mkdir ~/app/maven_repository

cd /root/app/apache-maven-3.3.9/conf

vim settings.xml

这一步是修改 The path to the local repository maven will use to store artifacts

mvn

就成功了

5.安装python3.6.5

下载pyton3.6.5 source release

配置python依赖环境

yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4_devel libpcap-devel xz-devel

tar -zxvf Python-3.6.5.tgz

cd  Python-3.6.5

./configure --prefix=/root/app/python3

make && make install

配置路径

6.安装spark

#下载source code

#tar -zxvf spark-2.3.0.tgz

#cd /home/software/spark-2.3.0/dev

#./make-distribution.sh --name 2.6.0-cdh5.7.0 --tgz -Pyarn -Phadoop-2.6 -Phive -Phive-thriftserver -Dhadoop.version=2.6.0-cdh5.7.0

解压:

tar -zxvf spark-2.3.0-bin-hadoop2.6.tgz -C app/

配置到环境变量: export SPARK_HOME=/root/app/spark-2.3.0-bin-hadoop2.6                                 export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

测试:

运行一个简单的spark程序

spark-shell

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值