目录
3.在配置了ResrouceManager的节点启动Yarn
6). 配置集群
core,hdfs,yarn,mapred:皆在/opt/module/hadoop/etc/hadoop下(三台服务器都要配置)
1.1 core
<!-- 指定NameNode的地址-->
<property>
<name>fs.defaultFS</name>
<value>hdfs://slave2:8020</value>
</property>
<!-- 指定hadoop数据存储目录-->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/hadoop/data</value>
</property>
1.2 hdfs
<!-- nn web端访问地址-->
<property>
<name>dfs.namenode.http-address</name>
<value>slave1:9870</value>
</property>
<!-- 2nn web端访问地址-->
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>master:9868</value>
</property>
1.3 yarn
<!-- 指定MR走shuffle-->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!-- 指定ResourceManager地址-->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>slave2</value>
</property>
<!-- 环境变量的继承-->
<property>
<name>yarn.nodemanager.env-whitelist</name>
<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_HOME,HADOOP_MAPRED_HOME</value>
</property>
1.4 mapred
<!-- 指定MapReduce程序运行在yarn上-->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
配置workers: 把localhost替换成三台服务器的主机名(不允许有空格和无用的回车换行)
7).启动集群
jps查看进程
1.格式化
hdfs namenode -format
2.启动hdfs
sbin/start-dfs.sh
3.在配置了ResrouceManager的节点启动Yarn
sbin/start-yarn.sh
4.web查看
- 浏览器输入:http;//slave1:9870
- 查看hdfs上存储的数据信息
- 输浏览器输入http://slave2:8088
- 查看Yarn中运行的job信息
8.配置ssh
密钥生成:输入ssh-keygen -t rsa (然后连续按三次回车)
公钥分发:输入ssh-copy-id host(主机名)
9.测试集群
创建文件夹
hadoop fs -mdkir abc
上传文件
hadoop fs -put 文件路径/文件名
查看文件存在什么位置
/opt/module/hadoop/data/dfs/data/current/BP-1380068889-192.168.222.202-1656925034090/current/finalized/subdir0/subdir0
查看hdfs在磁盘存储文件内容
cat blk.....
拼接
cat blk.... >> 文件名.tar.gz
tar- zxvf 文件名.tar.gz -C 路径
下载
hadoop fs -get 文件名 存储路径(./当前)
启用wordcount(路径是集群的路径)
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /abc/abc.txt /output