Hadoop入门及安装之HDFS分布式存储
一、安装和配置环境
1、首先我们准备一个干净的Linux系统(可以自己创建一个虚拟机,笔者在这里使用是阿里云服务器,都是一样的)
2、在Linux系统上搭建JDK1.8环境(在笔者博客中有Linux环境搭建JDK环境的教程,链接如下)
Linux环境上搭建JDK1.8环境
3、搭建好环境进行验证:
在界面输入:
java -version
出现如上图,代表JDK环境已经配置好了
4、firewalld:临时关闭防火墙+永久关闭防火墙
systemctl stop firewalld
systemctl disable firewalld
二、搭建Hadoop环境
1、首先在/usr/local下创建一个hadoop文件夹,用于存放hadoop相关文件
mkdir hadoop
2、我们去官网下载Hadoop压缩包,笔者在这里下载的事hadoop-2.7.6版本的,下载好后上传到我们刚才创建的/usr/local/hadoop文件夹下,并且进行解压
tar -zxvf hadoop-2.7.6.tar.gz
3、解压完后我们进入hadoop-2.7.6文件夹下看下
4、我们配置Hadoop环境变量
vim ~/.bashrc
export JAVA_HOME=/usr/local/java/jdk1.8.0_271
export HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.6 # hadoop的安装目录,替换为你的hadoop的安装目录
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
配置好后,刷新下环境:
source ~/.bashrc
5、我们修改一下Hadoop相关配置文件
进入/usr/local/hadoop-2.7.6/etc/hadoop
我们修改这几个文件
hadoop-env.sh
core-site.xml
hdfs-site.xml
mapred-site.xml
yarn-site.xml
workers
5.1、修改hadoop-env.sh
export JAVA_HOME=你的JDK路径
export HADOOP_LOG_DIR=/usr/local/hadoop-2.7.6/hadoop_repo/logs/hadoop
5.2、修改core-site.xml,注意fs.defaultFS属性中的主机名需要和你配置的主机名保持一致
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://127.0.0.1:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop-2.7.6/hadoop_repo</value>
</property>
</configuration>
5.3修改hdfs-site.xml 把hdfs中文件副本的数量设置为1,因为现在伪分布集群只有一个节点
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
5.4修改mapred-site.xml 设置mapreduce使用的资源调度框架
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
5.5修改yarn-site.xml,设置yarn上支持运行的服务和环境变量白名单
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.env-whitelist</name>
<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
</property>
</configuration>
6、修改workers,设置集群中从节点的主机名信息,在这里就一台集群,所以就填写你的主机名即可
vim workers
你的主机名
7、格式化HDFS
hdfs namenode -format
看到如下图中,画红框的,代表你格式化成功了
8、进入Hadoop文件夹下的sbin下输入如下命令:
sh start-all.sh
提示你输入密码,密码是root帐号的密码
9、输入jps查看,出现如下这几个,代表成功了