Hadoop考试相关题目

Hadoop考试题目复习大纲

HDFS:Hadoop distribute File Sytem(hadoop文件分布式系统),它是一个文件系统用于通过统一的命名空间—目录树来定位文件

数据块副本折存放策略是什么?

1.副本放置策略
第一副本:放置在上传文件的DataNode上;如果是集群外提交,则随机挑选一台磁盘不太慢、CPU不太忙的节点上;
第二副本:放置在于第一个副本不同的机架的节点上;

第三副本:与第二个副本相同机架的不同节点上;

如果还有更多的副本:随机放在节点中;

简述HDFS的架构。

HDFS主要由四个部分组成,分别为Client,nameNode、DataNode、以及Secondary NameNode组成

4.简述核心组件NameNode和DataNode的作用。

NameNode的作用

1、 维护目录树,维护命名空间。
2、 负责确定指定的文件块到具体的Datanode结点的映射关系。(在客户端与Datanode之间共享数据)
3、管理Datanode结点的状态报告

DataNode的作用

1、 负责管理它所在结点上存储的数据的读写,及存储数据。

2、 向Namenode结点报告DataNode节点的状态。

3、 通过流水线复制实现三份数据副本。

常见的HDFS分布式文件系统的命令行行的命令有哪些?

hdfs dfs ls 路径  ls cat  put mpa help cp  safemode get/leave/enter











hdfs dfs -moveFormLocal /root/Linux/a.txt /hdfs/a.txt  (剪切)

**常见的操作HDFS分布式文件系统的JavaAPI有哪些****FileSystem.get(url,configuration,user);//获取连接**
**CopyFromLocalFile();//上传文件到hdfs**
**CopyToLocal();//下载文件到本地**
**rename(path1,path2)//重新命名文件**
**delete(path1,true);//删除文件名**
**fs.listStatus(new Path());//用来判断文件的种类 是目录不是文件夹**

hdfs dfs -mkdir /wyh

    hdfs dfs -mkdir -p /wyh/dilireba/love  (多级创建)

1. 什么是数据 的完整性?

数据完整性是指数据库中数据在逻辑上的一致性、正确性、有效性和相容性

2. 常见的数据压缩格式 有哪些?对文件的压缩有哪些好处?

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FFinMIFY-1618988592267)(C:\Users\CourageAndLove\AppData\Roaming\Typora\typora-user-images\image-20210416111204506.png)]

好处: 减少存储的磁盘空间,降低IO,加快数据在磁盘和网络中的传输速度

Hadoop的序列化框架中常见的数据类型有哪些?

java数据类Hadoop数据类型
BooleanBooleanWritable
byteByteWritable
intIntWritable,VIntWritable
floatFloatWritable
longLongWritable
doubleDoubleWritable
StringText
mapMapWritable
arrayArrayWritable
nullNullWritable

什么是MapReduce的编程模型?

Hadoop MapReduce是一个软件框架,基于该框架能够容易的编写应用程序,这些应用程序能够运行由上千商用的机器组成的集群上,并以一种可靠的,具有容错能力的方式并行地处理TB级别的海量数据集。

MapReduce的思想是“分而治之”。 Maper负责分,Reducer负责结果汇总

简述MapReduce中JobTracker和TaskTracker的功能。

Jobtracker是主线程,它负责接收客户作业提交,调度任务到工作结点运行,并提供诸监控工作节点状态,及任务进度管理功能,一个MapReduce集群有一个jobtracker,一般运行在可靠的硬件上。

taskTracker是通过周期性的心跳通知jobtracker其当前的健康状态,每一次心跳包含了可用的map和reduce任务数目,占用的数目以及运行中的任务详细信息。Jobtracker利用一个线程池来同时处理心跳和客户请求。

使用MapReduce编程模型实现单词的词频统计。

简述MapReduce编程模型的编程思路

用户编写的程序分成三个部分:Mapper,Reducer,Driver(提交运行mr程序的客户端)

Driver来进行提交,提交的是一个描述各种必要的信息的job对象。

简述MapReduce的应用 程序在集群上的运行过程。

  1. 执行的MapReduce的程序会被部署到集群中去,Master负责作业调度,worker负责执行执行Map和Reduce任务

  2. 选出执行Map任务的空闲机器,进行分片处理,然后进行map
    得到输出数据<key,value>

  3. 得到的结果写入本地map机器的缓存,满了之后写入磁盘,并被划分为R个分区,Master会记录R个分区的位置,通知R个Reduce任务的Worker来领取属于自己处理的那部分分区

  4. Reduce任务的Worker领取了属于自己处理的分区,而且是当领取所有属于自己的Map机器的分区数据之后,Reduce任务的Worker对所有键值对进

    排序,将具有相同的Key值的聚在一起,然后开始执行Reduce任务
    对每一个唯一的Key执行Reduce任务,结果输出到HDFS中

  5. 关于Hadoop的单机模型和伪分布式模式的说法正确的是:

    后者比前者增加了HDFS输入输出以及检查内存的使用情况

    1. HDFS默认的当前 的工作目录 是/user/$USER,fs.default.name的值需要 在哪个配置文件内说明: core-site.xml
    2. 配置Hadoop时,java_home包含在哪一个配置文件中: hadoop-env.sh
    3. 下列关于MapReduce说法不正确的是 MapReduce只能 用java语言编写

    Hdfs基于流数据模式访问和处理超大文件的需求而开发的,具有高容错,高可靠性、高扩展性,高吞吐率特征,适合的读写任务是:一次写入,多次读入

    HBase 依靠HDFS 存储底层数据

    Hbase依赖MapReduce提供强大的计算能力

    下面和HDFS类似的框架是GFS

    大数据的特点不包括价值密度高,拥有巨大的数据量、多结构化数据,增长速度快

    Doug Cutting 所创立 的项目的名称都受到其家人的启发,以下项目不是由他创立的是 Solr

    由他创立 的项目有Hadoop,Nutch,Lucene

    出现在datanode的Version文件格式但不出现 在namenode的Version文件格式中的是 StorageID

    Client在HDFS上进行文件写入,namenode根据文件大小和配置情况返回部分datanode信息,谁负责将文件划分为多个Block,根据DataNode的地址信息按顺序写入到时每一个datanode块 Client

    关于HDFS的文件写入,正确的是:默认将文件复制三份存放。

    Hadoop fs中的-get和-put命令操作对象 是 文件和目录。

    NameNode在启动时自动进入 安全模式,在安全模式阶段,说法错误的是:文件系统允许有修改

MapReduce 框架提供了一种 序列化键/值对的方法,支持这种序列化的类能够在Map和Reduce过程 中充当键和值,

以下错误的是Hadoop的基本Text并不实现WritableComparable接口

下列哪个程序负责HDFS的数据存储DataNode

Client端上传文件的时候下列哪项正确 Client端将文件分为Block,依次上传

下面说法正确的是:D

A block Size是不可以修改的

B 如果 NameNode意外终止,SecondaryNameNode会接替它使集群继续工作

C Hadooop是java开发的,所以mapReduce只支持java

D ClouderaCDH是不需要付费使用的

下面说法正确的是:Hadoop默认调度策略为FIFO

Hadoop集群需要哪些守护进程: dataNode taskTracker namenode

hadoop主要组成部分包括:HDFS MapReduce yarn

有个exam任务,打算采用linux crontab,每20分钟运行一次,下面哪项正确?

A、

*/20 * * * * exam

下列哪种类型的文件不是HDFS的元数据的存储格式? blk_0000003425

HDFS无法高效的存储大量小文件,想证它能处理好小文件,比较可行的改进策略不包括:

查看当前模式是否是安全模式

hdfs dfsadmin -safemode get

HDFS组成架构 NameNode,DataNode,client,Secondary NameNode

MapReduce技术特征总结 自动并行化,自动可靠处理,灵活扩展,高性能

关于HDFS安全模式说法正确的是HBase依靠HDFS存储底层数据

请问以下哪个组成是错误 的sbin/hdfs dfsadmin -report

下面哪个选项中的Daemon总是运行在同一台主机上?

DataNOde &Task Tracker

不Hadoop MapReduce框架 中,任何类型 需要实现Writable接口

Hadoop配置文件中,hadoop-site.xml显示覆盖hadoop-default.xml里的内容。在版本0.20中,hadoop-site.xml被分离成三个XML文件,不包括 conf-site.xml

HDFS集群中nameNode的职责不包括: 负责保存客户端上传的数据。

包括:1. 维护HDFS集群的目录树结构 2、响应所有的客户端的所有的读写数据请求

  1. 维护HDFS集群的所有数据块分布、副本数和负载均衡

    1. HDFS集群中的DataNode的描述不正确的是? C

      A DataNode之间都是独立的,相互之间会有通信

      B, 响应客户端的所有读写数据请求,为客户端的存储和读取数据提供支撑

      C 一个DataNode上存储的数据可以有相同的

      D 存储客户端上传的数据的数据块

    执行一个job(工作),如果这个job的输出路径已经存在,那么程序会?D

    A、

    覆盖这个输出路径

    B、

    创建一个新的输出路径

    C、

    抛出警告,但是能够继续执行

    D、

    抛出一个异常,然后退出

    Hadoop中默认的心跳间隔是多少级?C

    A. 1S

    B 2S

    C 3S

    D 4S

储的数据可以有相同的

  D 存储客户端上传的数据的数据块

执行一个job(工作),如果这个job的输出路径已经存在,那么程序会?D

A、

覆盖这个输出路径

B、

创建一个新的输出路径

C、

抛出警告,但是能够继续执行

D、

抛出一个异常,然后退出

Hadoop中默认的心跳间隔是多少级?C

A. 1S

B 2S

C 3S

D 4S

  • 6
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
清软Hadoop期末考试题库涵盖了Hadoop的各个方面,包括基本概念、HDFS、MapReduce等内容。以下是一个简要的期末考试题库示例: 1. 解释Hadoop的特点以及其在大数据处理的作用。 Hadoop是一个分布式计算平台,具有可扩展性、容错性和高吞吐量的特点。它可以处理大规模数据,并通过将数据分布在集群的各个节点上来进行并行处理,从而提高处理效率。 2. 说明Hadoop分布式文件系统(HDFS)的工作原理。 HDFSHadoop用于存储大规模数据的分布式文件系统。它通过将大文件切割成块(Block)并分布在集群的不同节点上来实现高可靠性和高吞吐量。HDFS使用主从架构,其NameNode是主节点负责管理文件系统的元数据,DataNode是从节点负责存储和管理数据块。 3. 解释MapReduce的概念及其在Hadoop的应用。 MapReduce是一种编程模型,用于并行处理大规模数据。在Hadoop,MapReduce将大规模数据切分成小的数据块,并在集群的不同节点上并行执行Map和Reduce操作,以高效地进行数据处理和分析。 4. 总结Hadoop的生态系统以及各个组件的作用。 Hadoop生态系统包括HDFS、MapReduce、YARN、Hive、Pig、HBase等组件。HDFS用于存储大规模数据,MapReduce用于并行计算,YARN是用于资源管理的框架,Hive提供了类似SQL的查询语言,Pig是一种高级数据流编程语言,HBase是一个高性能的NoSQL数据库。 5. 解释Hadoop的容错性是如何实现的。 Hadoop通过数据冗余和自动故障恢复机制来实现容错性。数据冗余是指将数据块复制多次并分布在不同节点上,以防止单点故障。当节点发生故障时,Hadoop会自动从其他副本恢复丢失的数据块,从而实现容错性。 需要注意的是,这只是一个示例题库,并不包括所有可能的考试题目。期末考试题库的具体内容会根据课程的深度和广度进行调整。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

有时间指导毕业设计

觉得写的好的话可以给我打赏

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值