一、安装
-
安装Java的jdk
把bin放到环境变量里 ,即修改 profile文件
vi /etc/profile
在末端加入:export JAVA_HOME = (jdk的路径)
export PATH= P A T H : PATH: PATH:JAVA_HOME/bin使修改生效 :
source /etc/profile
-
安装hadoop
在 /etc/hadoop里改配置:
-
slaves
指定哪些机器启动DataNodes,不设置的话默认有一个localhost -
hadoop-env.sh
把export JAVA_HOME的值改死,即改成 /home/…/jdk.1.8.191 这个路径 -
core-site.xml
指定主节点(NameNode)
hdfs://hostname:9000 #一般默认端口号就是9000 -
hdfs-site.xml
<name>hfs.replication</name> #指定副本数 <value>3</value> #一般值为3
除此之外,还可以指定块的大小。
-
mapred-site.xml.template
<name>mapreduce.framework.name</name> <value>yarn</value>
指定MapReduce在yarn上面去跑
-
yarn-site.xml
yarn.sourcemanager.hostname 指定yarn的老大
yarn.nodemanager.aux-services 的值为mapreduce_shuffle,这是指定reduce获取数据的方式
-
关Linux防火墙
centos7要使用systemctl stop firewalld.service #启动用start
还要禁止开机自动启动防火墙的功能:systemctl disable firewalld.service
-
格式化
第一次启动hadoop的时候要初始化一下
要把hadoop下的sbin目录也添加到PATH里(bin目录也要)
格式化命令:hadoop namenode -format
注:namenode在/data/name里管理主机和块之间的映射关系
-
启动
命令:cd app/hadoop-2.4.1/sbin/
新手不建议start-all
所以先 start-dfs.sh, 再start-yarn.sh修改Windows的host文件(在system32/dirvers/etc 里面),把hostname和ip地址加进去)
修改host文件的方法: 用管理员身份打开命令提示符,输入 notepad, 在记事本里打开host进行修改保存。
这样我们就可以在Windows上,用 http://hostname:50070 进入HDFS的web页面
往这里上传文件:
hadoop fs -put xxxx.txt hdfs://hostname:9000/ # 末端一定是/,否则出错