Hadoop入门

最新推荐文章于 2022-12-19 17:53:04 发布

北轩奶嘴

最新推荐文章于 2022-12-19 17:53:04 发布

阅读量82

点赞数

文章标签： hadoop 大数据

本文链接：https://blog.csdn.net/m0_72229711/article/details/126005579

版权

Hadoop入门 1:hadoop概念 狭义上来说是一款软件,广义上来说是一个生态圈 2:Hadoop的2个集群 hdfs集群:解决海量数据存储,分布式存储系统 yarn集群:集群资源管理任务调度

每个集群的架构角色是什么？
    物理上在一起 逻辑上分离

03:集群规划 有冲突的尽量不部署在一起,有工作依赖的尽量部署在一起

04:搭建过程： 基础环境:1:ip地址,主机名.

2:hosts映射,windows里也需要配置

3:2个防火墙关闭

4:时间同步

5:ssh免密登录

6:GDK安装配置文件 3类6个第一类 1个 ==hadoop-env.sh== 第二类 4个 ==core|hdfs|mapred|yarn-site.xml== > site表示的是用户定义的配置，会覆盖default中的默认配置。 core-site.xml 核心模块配置 hdfs-site.xml hdfs文件系统模块配置 mapred-site.xml MapReduce模块配置 yarn-site.xml yarn模块配置第三类 1个 ==workers== 05:环境变量 集群初始化问题 format 在哪台机器初始化？初始化几次？初始化多了怎么解决？常在namenode所在的机器执行 ==执行一次。首次启动之前== 06:

hadoop集群启动日志----->排错的唯一依据 7:Hadoop web页面对应端口号 hdfs Namenode内部通常端口号 8020/9000 hdfs Namenode对用户的查询端口号 9870 yarn 查看任务运行情况的端口号 8088 jobhistory 历史服务器端口号 19888 8:jobhistory是干什么的？ 保存yarn上已经完成的MapReduce的执行信息。 9:垃圾桶有什么用？ 和回收站一种在删除数据的时候先去垃圾桶如果后悔可以复原