Linux开发环境配置-Hadoop安装(单机版)(五)
前言
Hadoop是一个开源框架,允许使用简单的编程模型在跨计算机集群的分布式环境中存储和处理大数据。它的设计是从单个服务器扩展到数千个机器,每个都提供本地计算和存储。需要提前安装Java环境。
- 1.下载相关版本
wget https://archive.apache.org/dist/hadoop/common/hadoop-3.1.3/hadoop-3.1.3.tar.gz
- 2.解压下载的文件
tar -zxvf hadoop-3.1.3.tar.gz
- 3.在 /usr/local/ 下创建hadoop文件夹,并将解压得到的hadoop-3.1.3放入hadoop文件夹中,并在终端中进入hadoop-3.1.3目录
- 4.进行伪分布式/单机版配置
(1)vi $HADOOP_HOME/etc/hadoop/core-site.xml
<configuration>
<!--指定文件系统为HDFS及NameNode主节点运行的机器端口和ip地址-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
<!--本地临时存储目录-->
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop/hadoop-3.1.3/data/tmpData</value>
</property>
</configuration>
(2)vi $HADOOP_HOME/etc/hadoop/hdfs-site.xml
<configuration>
<!-- hdfs副本数量-->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/usr/local/hadoop/hadoop-3.1.3/data/tmpData/dfs/name</value>
</property>
<property>
<name>dfs.namenode.data.dir</name>
<value>/usr/local/hadoop/hadoop-3.1.3/data/tmpData/dfs/data</value>
</property>
<!-- 开启权限,远程客户端可以通过脚本给hdfs创建目录 -->
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
<property>
<name>dfs.datanode.http.address</name>
<value>0.0.0.0:50070</value>
</property>
</configuration>
(3)配置 vi $HADOOP_HOME/etc/hadoop/hadoop-env.sh
,
配置 vi $HADOOP_HOME/etc/hadoop/mapred-env.sh
,
配置 vi $HADOOP_HOME/etc/hadoop/yarn-env.sh
: 均设置JAVA_HOME
export JAVA_HOME=/usr/local/java/jdk1.8.0_161
-
5.配置公钥
ssh-keygen -t rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
-
6.vim /etc/hosts
将所有的localhost.localdomain 替换为主机名 -
7.启动hadoop
cd $HADOOP_HOME
#格式化namenode
bin/hadoop namenode -format
#启动
sbin/start-all.sh
- 8.测试
输入jps
- 9.系统默认提供计算圆周率的java程序
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar pi 10 10