配置Hadoop集群远程客户端

在Hadoop和Spark集群搭建好了以后,如果我们需要向集群中发送、获取文件,或者是执行MapReduce、Spark作业,通常是搭建一个外围的、集群的客户端,在这个客户端上进行操作。而不是直接在集群的NameNode或者DataNode上进行。此时,集群和客户端的结构如下图所示(简化图,没有考虑NameNode的高可用),本文将介绍如何快速搭建一个集群客户端(有时也叫gateway)。

说明:在网络配置方面,可以遵循集群仅开放内网访问,而客户端开放外网访问,所有对集群的访问和管理,均通过客户端来完成。

配置步骤:

假设客户端的主机名是dc1(DataClient1的缩写,192.168.0.150),Hadoop集群中的NameNode主机名是hadoop01(192.168.0.34)。

1)ssh免密:

可选,方便后面scp拷贝文件。

修改hosts,添加机器名(可选)

2)拷贝文件:

需要将hadoop01上的Hadoop、spark和Java文件夹复制到dc1的对应位置即可。将文件拷贝到dc1的root用户下。

注意:dc1的目录结构要和hadoop01的保持一致

3)创建用户、修改环境变量:

在dc1上,创建hadoop用户,例如:useradd hadoop

然后修改hadoop用户的环境变量:~/.bash_profile

export JAVA_HOME=/usr/local/jdk/

export HADOOP_HOME=/usr/local/service/hadoop

export HBASE_HOME=/usr/local/service/hbase

export SPARK_HOME=/usr/local/service/spark



PATH=$PATH:$HOME/.local/bin:$HOME/bin:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HBASE_HOME/bin:$SPARK_HOME/bin

4)验证:

su - hadoop

hadoop fs -ls /

spark-shell

hbase shell

执行hadoop fs -ls / 可能会报如下错误:Error: Could not find or load main class org.apache.hadoop.fs.FsShell

解决方法:在~/.bash_proflile中添加 export HADOOP_CLASSPATH=$(hadoop classpath):$HADOOP_CLASSPATH

 

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

赶路人儿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值