Hadoop入门 1:hadoop概念 狭义上来说是一款软件,广义上来说是一个生态圈 2:Hadoop的2个集群 hdfs集群:解决海量数据存储,分布式存储系统 yarn集群:集群资源管理 任务调度
每个集群的架构角色是什么? 物理上在一起 逻辑上分离
03:集群规划 有冲突的尽量不部署在一起,有工作依赖的尽量部署在一起
04:搭建过程: 基础环境:1:ip地址,主机名.
2:hosts映射,windows里也需要配置
3:2个防火墙关闭
4:时间同步
5:ssh免密登录
6:GDK安装 配置文件 3类6个 第一类 1个 ==hadoop-env.sh== 第二类 4个 ==core|hdfs|mapred|yarn-site.xml== > site表示的是用户定义的配置,会覆盖default中的默认配置。 core-site.xml 核心模块配置 hdfs-site.xml hdfs文件系统模块配置 mapred-site.xml MapReduce模块配置 yarn-site.xml yarn模块配置 第三类 1个 ==workers== 05:环境变量 集群初始化问题 format 在哪台机器初始化?初始化几次?初始化多了怎么解决? 常在namenode所在的机器执行 ==执行一次。首次启动之前== 06:
hadoop集群启动 日志----->排错的唯一依据 7:Hadoop web页面对应端口号 hdfs Namenode内部通常端口号 8020/9000 hdfs Namenode对用户的查询端口号 9870 yarn 查看任务运行情况的端口号 8088 jobhistory 历史服务器端口号 19888 8:jobhistory是干什么的? 保存yarn上已经完成的MapReduce的执行信息。 9:垃圾桶有什么用? 和回收站一种 在删除数据的时候 先去垃圾桶 如果后悔可以复原