HDFS(Hadoop Distributed File System)是Hadoop三个基础组件之一,为另外的组件以及大数据生态中的其他组件提供了最基本的存储功能,具有高容错、高可靠、可扩展、高吞吐率等特点。HDFS运行在java环境中,因此我们都需要安装JDK。安装完成之后是一个分布式网络文件系统,需要多节点协同组成Master/Slave模式。
安装
Hadoop版本的历史是2011年1.0+版,2012年2.0+可用,目前最新已经是3.0在2017年就发布了。安装包中包括了HDFS与Yarn组件,以及MapReduce计算框架,还有其他的基础工具包和 RPC 框架。
- 下载安装包,可以在官网https://hadoop.apache.org/releases.html,国内也有镜像。然后解压到一个目录。
- 安装JDK,新版的需要JDK1.8及以上。yum -y install jdk。
- JDK依赖配置,配置etc/hadoop/hadoop-env.sh文件的JAVA_HOME,默认是export JAVA_HOME=${JAVA_HOME}。/etc/profile中再加export JAVA_HOME=/usr/lib/jvm/java.xxx。
- Hadoop执行环境配置,将hadoop/bin和sbin加入到path中,/etc/profile中加:
export HADOOP_HOME=/usr/local/hadoop-xxxexport HADOOP_MAPRED_HOME=$HADOOP_HOMEexport HADOOP_COMMON_HOME