Hadoop入门及安装之HDFS分布式存储

最新推荐文章于 2024-07-28 16:45:11 发布

程序猿届的彭于晏

最新推荐文章于 2024-07-28 16:45:11 发布

阅读量166

点赞数

文章标签： hadoop 大数据 linux

本文链接：https://blog.csdn.net/qq_20197983/article/details/111867629

版权

Hadoop入门及安装之HDFS分布式存储

一、安装和配置环境

1、首先我们准备一个干净的Linux系统（可以自己创建一个虚拟机，笔者在这里使用是阿里云服务器，都是一样的）
2、在Linux系统上搭建JDK1.8环境（在笔者博客中有Linux环境搭建JDK环境的教程，链接如下）
Linux环境上搭建JDK1.8环境
3、搭建好环境进行验证：
在界面输入：

java -version

出现如上图，代表JDK环境已经配置好了
4、firewalld：临时关闭防火墙+永久关闭防火墙

systemctl stop firewalld 
systemctl disable firewalld

在这里插入图片描述

二、搭建Hadoop环境

1、首先在/usr/local下创建一个hadoop文件夹，用于存放hadoop相关文件

mkdir hadoop

在这里插入图片描述
2、我们去官网下载Hadoop压缩包，笔者在这里下载的事hadoop-2.7.6版本的，下载好后上传到我们刚才创建的/usr/local/hadoop文件夹下，并且进行解压

tar -zxvf hadoop-2.7.6.tar.gz

在这里插入图片描述
3、解压完后我们进入hadoop-2.7.6文件夹下看下

4、我们配置Hadoop环境变量

vim ~/.bashrc

export JAVA_HOME=/usr/local/java/jdk1.8.0_271
export HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.6        # hadoop的安装目录，替换为你的hadoop的安装目录
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

在这里插入图片描述

配置好后，刷新下环境：
source ~/.bashrc

5、我们修改一下Hadoop相关配置文件

进入/usr/local/hadoop-2.7.6/etc/hadoop

在这里插入图片描述
我们修改这几个文件

hadoop-env.sh
core-site.xml
hdfs-site.xml
mapred-site.xml
yarn-site.xml
workers

5.1、修改hadoop-env.sh

export JAVA_HOME=你的JDK路径
export HADOOP_LOG_DIR=/usr/local/hadoop-2.7.6/hadoop_repo/logs/hadoop

5.2、修改core-site.xml，注意fs.defaultFS属性中的主机名需要和你配置的主机名保持一致

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://127.0.0.1:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/usr/local/hadoop-2.7.6/hadoop_repo</value>
    </property>
</configuration>

5.3修改hdfs-site.xml 把hdfs中文件副本的数量设置为1，因为现在伪分布集群只有一个节点

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

5.4修改mapred-site.xml 设置mapreduce使用的资源调度框架

<configuration>
   <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
   </property>
</configuration>

5.5修改yarn-site.xml，设置yarn上支持运行的服务和环境变量白名单

<configuration>
   <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
   </property>
    <property>
     <name>yarn.nodemanager.env-whitelist</name>
    <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
    </property>
</configuration>

6、修改workers，设置集群中从节点的主机名信息，在这里就一台集群，所以就填写你的主机名即可

vim workers
你的主机名

7、格式化HDFS

hdfs namenode -format

看到如下图中，画红框的，代表你格式化成功了
在这里插入图片描述
8、进入Hadoop文件夹下的sbin下输入如下命令：

sh start-all.sh

提示你输入密码，密码是root帐号的密码
在这里插入图片描述
9、输入jps查看，出现如下这几个，代表成功了

程序猿届的彭于晏

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop入门及安装之HDFS分布式存储

Hadoop入门及安装之HDFS分布式存储1、首先我们准备一个干净的Linux系统（可以自己创建一个虚拟机，笔者在这里使用是阿里云服务器，都是一样的）2、在Linux系统上搭建一套
复制链接

扫一扫