####
大数据课程第四天
Hadoop相关的配置信息
core # 基础通用配置内容 1.namenode总入口 2.临时目录
hdfs # hdfs相关内容的配置 1.权限 2.副本 3. HA高可用
mapred # mapreduce相关的配置
yarn # yarn相关的配置
#底层的配置文件,存储都是默认值,根据需要进行修改
core-default.xml
hdfs-default.xml
marpred-default.xml
yarn-default.xml
# HADOOP_HOME/etc/hadoop
core-site.xml
hdfs-site.xml
mapred-site.xml
yarn-site.xml
# 代码级 维护性查 优先级高
Configuration configuration = new Configuration();
configuration.set("fs.default.name","hdfs://hadoop:8020");
configuration.set("key","value");
.....
FileSystem fileSystem = FileSystem.get(configuration);
# 代码级 维护性好 优先级低
Configuration configuration = new Configuration();
configuration.addResource("core-site.xml");
configuration.addResource("hdfs-site.xml");
configuration.addResource("marpred-site.xml");
configuration.addResource("yarn-site.xml");
FileSystem fileSystem = FileSystem.get(configuration);
#Hadoop shell命令 直接指定 配置信息
#测试
bin/hdfs dfs -ls / -Dfs.defaultFS=xxxx
MapReduce编程
MapReduce基于HDFS之上一种计算平台,计算框架
MapReduce运行原理:
搭建yarn集群 NameNode不能和ResourceManager放置在同一台节点 #保证resourcemanager和namenode不放置在同一个节点,修改yarn-site.xml
#启动yarn 一定要在resourcemanager所在的机器上执行启动命令
sbin/start-yarn.sh
布置作业: HAHDFS集群基础上 搭建HAYarn集群
MapReduce的核心5步骤
MR经典案例WordCount 思路分析