1.概要:
伪分布式就是在一台虚拟主机上同时开启以下所有进程
NameNode、DataNode、ResourceManager、NodeManager、JobHistoryServer
操作上
1、要在已经可以联网的虚拟机上安装好JDK+HADOOP,配置环境变量
2、配置相关文件
3、启动集群相关进程,并检查启动是否成功,尤其namenode格式化要注意删除data、logs文件夹
4、对hdfs文件增删改查操作,包括下载到本地Linux文件系统中。
5、在hadoop上运行任务,如hadoop自带的wordcount、grep示例
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar
wordcount /user/atguigu/input/ /user/atguigu/output
6、在web端查看文件系统或者任务的日志信息
2.环境变量的配置
jdk:
文件:将jdk的压缩包(jdk-8u171-linux-x64.tar.gz)放在/opt/software里
解压:tar -zxvf jdk-8u171-linux-x64.tar.gz -C /opt/module/
(解压到指定文件夹中,-C 不要漏)
pwd:进入/opt/module/jdk1.8.0_171,pwd复制jdk的根目录
vim /etc/profile编辑环境变量:
export JAVA_HOME=/opt/module/jdk1.8.0_171
export PATH=$PATH:$JAVA_HOME/bin
保存后将文件生效:source /etc/profile
测试环境变量:java -version
jdk环境变量配置成功
hadoop:
源文件:将hadoop的压缩包(hadoop-2.7.2.tar.gz)放在/opt/software里
解压:tar -zxvf hadoop-2.7.2.tar.gz -C /opt/module/
(解压到指定文件夹中,-C 不要漏)
pwd:进入/opt/module/hadoop-2.7.2,pwd复制hadoop的根目录
vim /etc/profile编辑环境变量:
export HADOOP_HOME=/opt/module/hadoop-2.7.2
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
保存后将文件生效:source /etc/profile
测试环境变量:hadoop version
hadoop环境变量配置成功
3.hadoop运行模式
本地模式:local,配置文件不需要改动
伪分布模式:只有一个节点,所有的hdfs+mapreduce+yarn在一台主机上
完全分布式:三台虚拟机模拟的hadoop集群,hdfs+mapreduce+yarn
4.hadoop文件系统
bin:hadoop+hd