1 环境准备
hadoop 需要安装在linux的OS上,第一步应安装linux系统,可以物理机 ,双系统,不过最好的还是用虚拟机来搞一个(hyper-V VMWare),可以安装centos ubuntu 等系统,
在虚拟机上安装linux的步骤可以参考度娘。
2 java 的安装与环境变量的配置
2.1 登录oracle官网下载你需要的jdk版本
2.2 配置jdk的环境变量
解压tar文件到usr目录下,在终端输入 vim /etc/profile 编辑该文件加入下列环境变量 完成配置,在终端输入 javac 验证
2.3 更改生效
输入 source /etc/profile
2.4 验证配置是否成功
java -version
3 hadoop 的安装与配置
3.1 下载安装包
到hadoop 官网下载hadoop的安装包,解压到/usr目录下
3.2 配置hadoop的环境变量
在/etc/profile 文件中添加红红框中对部分
3.3 检验hadoop 环境变量是否配置成功
在终端 输入 hadoop version
3.4.1配置hadoop-env.sh
vim hadoop-env.sh
export JAVA_HOME=/usr/java/jdk1.8.0_144
3.4.2 配置core-site.xml
3.4.3 配置hdfs-site.xml
3.4.4 配置 mapred-site.xml
拷贝mapred-site.xml.template 文件 并命名为 mapred-site.xml
在终端输入命令
mv mapred-site.xml.template mapred-site.xml
3.4.5 配置 yarn-site.xml
3.5 格式化namenode
hadoop namenode -format
或 hdfsnamenode -format
3.6启动hadoop
3.6.1 分步启动
先启动HDFS
start-dfs.sh
再启动YARN
start-yarn.sh
3.6.2 全部启动
start-all.sh
3.7.1验证 启动是否成功
4322 NameNode
4153 Jps
4458 SecondaryNameNode
9594 NodeManager
3802 ResourceManager
3964 DataNode
4153 Jps
4458 SecondaryNameNode
9594 NodeManager
3802 ResourceManager
3964 DataNode
在浏览器输入 http://localhost:8088/ 可以看到ResourceManager
http://localhost:50070/ 可以namenode 信息
3.7.2 设置免密
在启动的过程中要输入数次密码,可以使用下面的命令 设置免密码启动
生成密钥
1 ssh-keygen -t rsa -P ""
2密钥写入ssh中
cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_keys
/etc/init.d/ssh reload
4 celipse 的安装与配置
4.1到eclipse 官网下载Eclipse压缩包。
4.2解压文件
并配置eclipse的环境变量(为了直接能在终端输入eclipse 启动eclipse)
5 word count Demo
安装完成后可以运行一个 hadoop 自带的wordCount 程序
5.1 在本地新建一个txt文件
终端输入 vim test.txt
插入内容
:wq!
保存
5.2 在HDFS上新建一个文件夹 input,并将本地文件上传到HDFS上
1.
hdfs dfs -mkdir /input
2. hadoop fs -put /home/hadoop1/test.txt /input
5.3 运行WordCount 程序
5.4 查看输出文件