Hadoop的体系结构

大数据Hadoop 专栏收录该内容
11 篇文章 0 订阅

Hadoop的体系结构:都是主从结构

一、HDFS的体系结构

    1、NameNode:主节点

            http://192.168.160.111:50070

            


            (1)职责:管理维护HDFS

                            接收客户端的请求:上传、下载、创建目录等等

                                                            维护了两个非常重要的文件:edits文件 ---->记录操作日志

                                                                                                        fsimage文件----->HDFS的元信息

            (2)HDFS操作日志:edits文件

                        (*)位置:find . -name edits*

                                        最新的操作日志:edits_inprogress****

                        (*)都是二进制

                        (*)HDFS提供一个工具:edits viewer 日志查看器 ----->XML

                        (*)Demo:

                                hdfs dfs -mkdir /mydemo

                                hdfs oev -i edits_inprogress_000000000000000106 -o ~/a.xml

               (3)HDFS的元信息:fsimage文件

                        (*)就跟edits文件在一起

                        (*)记录:数据块的位置、冗余信息

                        (*)也是一个二进制

                        (*)HDFS提供一个 image viewer ----->文本或者xml

                                    hdfs oiv -i fsimage_00000000000000005 -o ~/b.xml -p XML

                (4)问题:edits文件和fsimage文件,哪个文件体现了HDFS最新的状态?

                                   答案:edits文件,edits记录最新的状态在edits_inprogress文件中

    2、DataNode:保存数据块

                (1)1.x版本默认数据块大小为:64M    2.x版本默认数据块大小为:128M

                (2)位置:find . -name blk*

                (3)Demo:上传一个大于128M的文件

                                    hdfs dfs -put hadoop-2.7.3.tar.gz /tools

                                    查看数据块的文件

                (4)一般原则:数据块的冗余度一般跟数据节点个数一致,最大不要超过3,在生产环境下,至少两个数据节点

    3、SecondaryNameNode:第二名称节点

            (*)作用:把edits中最新的状态信息合并到fsimage文件中

            (*)合并过程

                    

            (*)Web Console:http://192.157.111:50090

            (*)检查点:checkpoint

                                补充一个知识:oracle数据库中也有检查点,如果发生检查点,会以最高优先级唤醒数据库写进程(DBWN)把内存中的脏数据写到数据文件上(持久化)

二、Yarn的体系结构

        日志:

     18/04/07 20:24:34 INFO client.RMProxy: Connecting to ResourceManager at bigdata111/192.168.157.111:8032   

    1、主从结构:ResourceManager、NodeManager

    2、调度MapReduce任务过程

    

    3、资源分配的方式(3种)

           (1)FIFO Scheduler:先来先得,缺点:没有考虑任务的优先级

           (2)Capacity Scheduler:容器管理

           (3)Fair Scheduler:公平调度(注意:安装配置Hive on Spark,需要配置Yarn为Fair Scheduler)

                                            前提:假设每个任务具有相同的优先级,平均分配系统的资源

                    

三、HBase的体系结构

        (*)主从结构

        (*)基于HDFS之上的一个NoSQL数据库

        (*)列式数据库

        (*)基于Key - Value----->Redis

        1、主节点:HMaster

              从节点:RegionServer

        2、画图解释:

        

四、只要是主从结构的都会存在单点故障,解决方案:


  • 2
    点赞
  • 0
    评论
  • 6
    收藏
  • 打赏
    打赏
  • 扫一扫,分享海报

©️2021 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页

打赏作者

小鹏求知

你的鼓励将是我创作的最大动力

¥2 ¥4 ¥6 ¥10 ¥20
输入1-500的整数
余额支付 (余额:-- )
扫码支付
扫码支付:¥2
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值