大数据期末考试

最新推荐文章于 2023-02-28 17:41:44 发布

飞宙

最新推荐文章于 2023-02-28 17:41:44 发布

阅读量5.1k

点赞数 8

分类专栏： zookeeper 文章标签：期末考试

本文链接：https://blog.csdn.net/qq_44123730/article/details/92805361

版权

zookeeper 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1.分布式系统设计策略包括重试机制，心跳机制，副本机制
2.hadoop核心组件由HDFS，MapReduce，Yarn这三大部分组成。
3.分布式系统数据分布设计包括哈希取模，一致性哈希，数据范围划分，数据库划分
4.分布式系统分布式协议包括Paxos机制，Lease机制
5.HDFS集群启动的时候，运行着namenode，datanode，secondaryNamenode三个重要角色
6.namenode是HDFS架构中的主节点，用于维护和管理DataNode上存储的block块。
7.强制Namenode进入safe Mode模式的命令是hdfs dfsadmin –safemode enter
8.yarn自带的资源调度器有FIFO , Capacity Scheduler , Fair Scheduler
9.Zookeeper是一个分布式开源的应用程序协调服务，其中提供的服务包括配置维护，域名服务，分布式锁
10.Zookeeper特性包括一致性，原子性，单一视图，可靠性，实时性
11.启动zookeeper命令zkServer.sh start，启动zookeeper客户端命令zkCli.sh，暂停命令为zkServer.sh stop 。
12.Hbase数据存储在HDFS之上。
选择题：
1.Hadoop1.0默认的调度器策略是先进先出调度器
2.MapReduce擅长哪个领域的计算是离线计算
3.一个标准的生产环境中Zookeeper实例个数不可能是偶数台机器
4.Hbase中的术语有Column，Column Family，Row Key，Meta
5.Flume的主要作用是数据采集
6.Hbase支持多语言（比如C++，python等）访问，为实现该功能，它采用的开源软件是thrift
7.Zookeeper集群中Leader服务器在整个运行期间有且仅有一台，
8.PERSISTENT_SEQUENTIAL是永久有序节点类型
9.在hadoop HA中，HDFS由2个namenode组成，一个leader一个follower
10.数仓对象不是单一化【需要将数仓特点背出来】
判断题：
1.Hive不支持所有的标准SQL语法，Hive的HQL语法和SQL语法不完全一致
2.Hadoop不支持随机读写。
3.MapReduce的input split不一定等于一个block。
4.MpaReduce适用于处理PB级别的离线业务数据。
5.Hive将元数据存储在数据库中。
6.Hadoop HDFS为Hive提供了高可靠性的底层存储支持。
7.数据采集可以通过flume框架来完成。
8.ETL包括数据抽取，数据交互转换和数据加载过程。
9.数仓特点包括数据源多样化，数据量大和服务对象多样化。
10.MongoDB是一个高性能，开源，无模式的文档型数据库。
11.在Zookeeper中，znode创建的类型有4种类型。
12.hive的查询语言 hql
13.hive元数据存储在数据库
14. hive源数据存储在 HDFS
15. hive执行任务的是 mapReduce
16.Hdfs核心组件有哪些namenode,datanode,Secondarynamenode

简答题：
1.zookeeper的znode有4种类型，分别有：
(1) 持久化节点。
(2) 顺序持久化节点。
(3) 临时节点。
(4) 顺序临时节点。
2. 安装HDFS时候，需要修改几个重要的配置文件，这些重要的配置文件分别有：
(1) slaves。
(2) core-site.xml。
(3) hdfs-site.xml。
(4) hadoop-env.sh。
3. 安装一个最为简单的Hbase分布式集群，需要配置几个基本配置文件，分别有：
(1) hbase-env.sh
(2) hbase-site.xml
(3) regionservers
4. Hive和RDBMS对比，Hive特点：
a.查询语言HQL
b.数据存储HDFS
c.执行MapReduce
d.执行延迟高
e.处理数据规模大
B

填空题：
1.在Zookeeper当中，通过ZAB来构建高可用的分布式数据主备系统，而paxos是用来构建分布式一致性状态机系统
2.Hadoop生态系统组件非常之多，比如HDFS,MapReduce,Hbase,Zookeeper,Hive ,storm,spark，flume等
3.Hive支持用户自定义函数，用可以根据自己的需求来实现自己的函数。
4.Hbase是基于hadoop的一个分布式NoSQL数据库。
5.数据采集可以通过flume框架来实现。
6.Hive具有可扩展，延展性，容错等点
7.Hive架构图中基本组成包括用户接口，元数据存储，解析器，编译器，优化器和执行器等
8.Hadoop中， Client端将文件切分为Block,依次上传
9.HBase是一个分布式面向列的开源数据库
10.数据仓库主要应用于OLAP
11.SQL数据存储特定结构表中
12.Hive属于ETL工具
判断题：
1.zookeeper是不适合做队列的，由于zookeeper有1MB传输限制，存在过多的节点会导致zookeeper启动非常慢，zookeeper数据完全存储在内存，大量的队列意味着占用很多内存
2.SecondaryNamenode它在HDFS执行常规的检查点
3.表名信息不会存储在Hbase的一个cell中
4.在zookeeper中，持久节点下面支持创建子节点
5.MapReduce是一个计算框架，可以运行在yarn上
6.Flume的主要作用是数据采集。
7.Zookeeper实例个数在生产环境当中应该是奇数个。
8.Hive底层采用的计算引擎是MapReduce。
9.Block和split之间对应关系是任意的，可以由用户控制。
10.Zookeeper采用递增事务ID来保证事务顺序一致性。
11.在zookeeper集群当中，如果leader崩溃或者失去大多数follower，这个时候zookeeper进入恢复模式。
12.启动Hbase需要启动Hadoop集群。
13.Hbase是一个分布式的面向列的开源数据库，是一个NoSQL数据库。
14.Sqoop为Hbase提供了方便的RDBMS数据导入功能。
简答题：
1.分布式系统数据分布设计当中，主要包括：
(1) 哈希取模
(2) 一致性哈希
(3) 数据范围划分
(4) 数据库划分
2. Hbase相关命令：
(1)创建表的关键字create。
(2)描述表结构信息的关键字 describe 。
(3)插入数据关键字 put。
(4)获取数据关键字 get
(5)扫描表结构关键字 scan
3. Haoop启动过程，namenode启动进度包括：
(1) 读取fsimage。
(2) 读取edit logs 。
(3) 写入新的检查点
4. 下面是关于zookeeper的znode的状态信息，各个状态信息的含义如下：
(1)czxid 创建该znode节点的事务ID
(2)mzxid 最后更新该节点的事务ID
(3)version 该znode节点的版本号