模拟卷（都有）

最新推荐文章于 2024-08-13 10:09:13 发布

m0_67419805

最新推荐文章于 2024-08-13 10:09:13 发布

阅读量121

点赞数

文章标签： hadoop 大数据 hdfs

本文链接：https://blog.csdn.net/m0_67419805/article/details/131014954

版权

包含答案包含解析

显示答案

1、关于Secondary NameNode哪项是正确？（0.9分）

A、

B、

C、

D、

2、 Hadoop2.x版本中的数据块大小默认是多少？（0.9分）

A、

B、

C、

D、

3、下列描述说法错误的是？（0.9分）

A、

B、

C、

D、

4、下面关于MapReduce模型中Map函数与Reduce函数的描述正确的是（）（0.9分）

A、

B、

C、

D、

大数据开发技术模拟试卷(1)

创建人：赵长伟 | 题量：73 | 满分：80 分

一、单选题 （共22题，20分）

它是 NameNode 的热备

它对内存没有要求

它的目的是帮助 NameNode合并编辑日志，减少NameNode启动时间

SecondaryNameNode 应与NameNode部署到一个节点

正确答案： C

解析：

64M

128M

256M

512M

正确答案： B

解析：

SecureCRT是一款支持SSH的终端仿真程序，它能够在Windows操作系统上远程连接Linux服务器执行操作。

Hadoop是一个用于处理大数据的分布式集群架构，支持在GNU/Linux系统以及Windows系统上进行安装使用。

VMware Workstation是一款虚拟计算机的软件，用户可以在单一的桌面上同时操作不同的操作系统。

SSH是一个软件，专为远程登录会话和其他网络服务提供安全性功能的软件。

正确答案： D

解析：

一个Map函数就是对一部分原始数据进行指定的操作。

一个Map操作就是对每个Reduce所产生的一部分中间结果进行合并操作。

Map与Map之间不是相互独立的。

Reducee与Reduce之间不是相互独立的。

查看试卷

试卷导出

大数据开发技术... 课程门户

首页活动统计资料通知作业考试分组任务(PBL) 讨论管理

河南科技大学

赵长伟正确答案： A

解析：花间集的答案解析

5、 MapReduce适用于（）（0.9分）

A、任意应用程序

B、任意可以在Windows Server 2008上的应用程序

C、可以串行处理的应用程序

D、可以并行处理的应用程序

正确答案： D

解析：花间集的答案解析

6、 HDFS中用于减少Namenode节点负载的是（）

（0.9分）

A、 NameNode

B、 DataNode

C、 Secondary NameNode

D、 ResourceManager

正确答案： C

解析：

7、下列哪项通常是集群的最主要的性能瓶颈？

（0.9分）

A、 CPU

B、网络

C、磁盘

D、内存

正确答案： C

解析：

花间集的答案解析

8、关以下选项中，HDFS中存储存储集群元数据的是（）

（0.9分）

A、 NameNode

B、 DataNode

C、 Secondary NameNode

D、 ResourceManager

正确答案： A

解析：

9、关以下选项中，负责HDFS数据存储的节点是（）（0.9分）

A、 NameNode

B、 DataNode

C、 Secondary NameNode

D、 ResourceManager

正确答案： B

解析：

10、

假设您正在从事股票市场预测。您想预测某家公司明天的股票价格（通过对之前股票价格或相关信息进行训练）。

您会将其视为分类问题还是回归问题？

（0.9分）

A、分类

B、回归

正确答案： B

解析：

11、假设从事天气预报，想预测明天下午 5 点是否会下雨。您想为此使用学习算法。

您会将其视为分类问题还是回归问题？

（0.9分）

A、分类

B、回归

正确答案： A

解析：

12、假设您正在从事股票市场预测。您想预测某家公司是否会在未来 7 天内宣布破产（通过对之前有破产风险的类似公司的数据进行训练）。

您会将其视为分类问题还是回归问题？

（0.9分）

A、分类

B、回归

正确答案： A

解析：

13、假设从事天气预报，想预测明天下午 5 点的降雨量。您想为此使用学习算法。

您会将其视为分类问题还是回归问题？

（0.9分）

A、分类

B、回归正确答案： B

解析：

14、按粒度大小的顺序，Hive数据被分为：数据库、数据表、（）、桶

（0.9分）

A、元祖

B、栏

C、分区

D、行

正确答案： C

解析：

15、以下选项中，哪种类型间的转换是被Hive查询语言所支持的（）（0.9分）

A、 Double—Number

B、 BigInt—Double

C、 Int—BigInt

D、 String—Double

正确答案： D

解析：

16、 Hive是建立在（）之上的一个数据仓库（0.9分）

A、 HDFS

B、 MapReduce

C、 Hadoop

D、 HBase

正确答案： C

解析：

17、聚类数目不需要用户指定的是

（0.9分）

A、亲近度传播聚类

B、 k均值聚类

C、基于密度的聚类

正确答案： A

解析：

18、聚类评价标准是类间相似度

（0.9分）

A、高 B、低

C、合适

正确答案： B

解析：

19、决策树方法中，使用信息增益率做为分裂节点选择的是

（0.9分）

A、 ID3

B、 C4.5

C、 CART

正确答案： B

解析：

20、决策树方法中，使用信息增益做为分裂节点选择的是

（0.9分）

A、 ID3

B、 C4.5

C、 CART

正确答案： A

解析：

21、

假设您刚刚加入了一个产品团队，该团队使用m=1000个培训示例开发了一个机器学习应用程序。您发现您可以选择雇用其他人员来帮助收集和标记数

据。您估计，您必须支付每个标记人员每小时10美元，每个标记人员每分钟可以贴标4个示例。标记10000个新的示例大约需要多少费用？

（1分）

A、 $400

B、 $600

C、 $10,000

D、 $250

正确答案： A

解析：

22、在大型数据集中，一般包含缺失数据，对缺失数据的处理方法，不合适的是

（1分）

A、少量缺失数据，丢弃对应的样例

B、均值填充

C、中位数填充

D、随机填充

正确答案： D

解析： 二、多选题 （共3题，10分）

23、客户端上传文件的时候哪项是正确的？（3.3分）

A、数据经过 NameNode 传递给 DataNode

B、客户端端将文件切分为多个Block，依次上传

C、客户端只上传数据到一台 DataNode，然后由 NameNode 负责 Block 复制工作

D、客户端发起文件上传请求，通过RPC与NameNode建立通讯。

正确答案： B D

解析：

24、配置Hadoop集群时，下列哪个Hadoop配置文件需要进行修改？（多选）（3.3分）

A、 hadoop-env.sh

B、 profile

C、 core-site.xml

D、 ifcfg-eth0

正确答案： A C

解析：

25、基于密度的聚类适合下列哪些数据分布

（3.4分）

A、

B、

C、

D、

正确答案： A B C

解析：

三、填空题 （共23题，10分）

26、 NameNode以元数据形式维护着_______、________文件。（0.4分）

正确答案

第一空： fsimage

第二空： EditLog

解析：；

27、 NameNode与DataNode通过_______机制互相通信。（0.4分）正确答案

第一空： 心跳监测

解析：；

28、加载环境变量配置文件需要使用______命令。（0.4分）

正确答案

第一空： source /etc/profile

解析：；

29、 Hadoop默认开设HDFS文件系统端口号_______和监控Yarn集群端口号______。（0.4分）

正确答案

第一空： 50070

第二空： 8088

解析：；

30、 Hadoop集群部署方式分别是______、______和______。（0.4分）

正确答案

第一空： 独立模式

第二空： 伪分布式模式

第三空： 完全分布式模式

解析：；

31、 Partitioner组件目的是___________。（0.4分）

正确答案

第一空： 将key均匀分布在ReduceTask上；

解析：中国诗经的写作方式不包括赋、比、兴。

32、 MapReduce工作流程分为____、____、____、____、____。（0.4分）

正确答案

第一空： 分片、格式化数据源、执行MapTask、执行Shuffle过程、执行ReduceTask、写入文件；

解析：中国诗经的写作方式不包括赋、比、兴。

33、对于仅有少部分有标记的数据，使用（）学习方法。

（0.4分）

正确答案

第一空： 半监督

解析：

34、按照数据集中是否给出标记项，可以将机器学习方法划分为有监督学习和（）

（0.4分）

正确答案

第一空： 无监督学习解析：

35、 Hadoop三大组件包含______、______、______。（0.4分）

正确答案

第一空： HDFS、MapReduce、Yarn

解析：

36、 Hadoop2.x版本中的HDFS是由______、______、______组成。（0.4分）

正确答案

第一空： NameNode、DataNode、Secondary NameNode

解析：

37、大数据的4V特征包含______、______、______、______。（0.4分）

正确答案

第一空： 大量、多样、高速、价值

解析：

38、 Hive创建桶表关键字_____，且Hive默认分桶数量是_______。

（0.4分）

正确答案

第一空： clustered by、-1

解析：

39、 Hive建表时设置分割字符命令__________（0.4分）

正确答案

第一空： row format delimited fields terminated by char

解析：中国诗经的写作方式不包括赋、比、兴。

40、 Hive查询语句select ceil(2.34)输出内容是______。

（0.4分）

正确答案

第一空： 3

解析：

41、使用信息增益，对于申请贷款的数据集，如下：第一个节点划分的属性是（）

（0.5分）

正确答案

第一空： 房子

解析：

42、对于申请贷款的数据集，如下：

信用的信息增益（）

（0.5分）

正确答案

第一空： 0.299

解析：

43、对于申请贷款的数据集，如下：年龄的信息增益（）

（0.5分）

正确答案

第一空： 0.011

解析：

44、在centos中，若

#配置Hbase环境变量文件是

vi /etc/profile

#是环境变量生效命令是

（0.5分）

正确答案

第一空： source /etc/profile

解析：

45、补全hadoop下执行jar包文件的命令：

>>_______________ (jar file name) (className_along_with_packageName) (input file) (output folderpath)

（0.5分）

正确答案

第一空： hadoop jar

解析：

46、启动HBase(环境变量配置好后) 命令是

（0.5分）

正确答案

第一空： start-hbase.sh

解析：

47、 hadoop下的将本地文件上传到hadoop的命令

（0.5分）

正确答案 第一空： hadoop fs -put

解析：

48、下面给出的数据集样例（sample）数目个数是（）

其中y是标记或预测值

（0.5分）

正确答案

第一空： 4

解析：

四、判断题 （共7题，10分）

49、 NameNode本地磁盘保存了数据块的位置信息。

（1.4分）

正确答案：错误

解析：

50、布式模式下的Hadoop功能与完全分布式模式下的Hadoop功能相同。（1.4分）

正确答案：正确

解析：

51、 Hadoop存在多个副本，且默认备份数量是3。

（1.4分）

正确答案：正确

解析：

52、 hadoop是Java语言开发的，因此在搭建Hadoop集群时，需要为集群安装JDK环境变量。

（1.4分）

正确答案：正确

解析：

53、在MapReduce程序中，必须开发Map和Reduce相应的业务代码才能执行程序。

（1.4分）

正确答案：错误

解析： 54、 Hadoop是由Java语言开发的。（1.5分）

正确答案：正确

解析：多音节是中国语言文化的特性的答案解析

55、在Hadoop集群中，NameNode负责管理所有DataNode（1.5分）

正确答案：正确

解析：

五、简答题 （共14题，10分）

56、简述HDFS上传文件工作流程

（0.7分）

正确答案:

client 通过namenode 分配DataNode节点并记录存储位置

解析：

57、简述 Name Node 与 SecondaryName Node 的区别与联系。

（0.7分）

正确答案:

解析：

58、简述什么是SSH以及SSH协议解决的问题。

（0.7分）

正确答案:

SSH为Secure Shell的缩写，它是一种网络安全协议，专为远程登录会话和其他网络服务提供安全性的协议。通过使用SSH服务，可以把传输的数据进行加密，

有效防止远程管理过程中的信息泄露问题。

解析：

SSH为Secure Shell的缩写，它是一种网络安全协议，专为远程登录会话和其他网络服务提供安全性的协议。通过使用SSH服务，可以把传输的数据进行加密，

有效防止远程管理过程中的信息泄露问题。

59、简述 Shuffle 工作流程。

（0.7分）

正确答案:

map 阶段处理的数据如何传递给 reduce 阶段，是 MapReduce 框架中关键的一个流程，这个流程就叫 shuffle 。

shuffle: 洗牌、发牌 -- （核心机制：数据分区，排序，合并）。

shuffle 是 Mapreduce 的核心，它分布在 Mapreduce 的 map 阶段和 reduce 阶段。一般把从 Map 产生输出开始到 Reduce 取得数据作为输入之前的过程称作 shuffle 。

1.Collect 阶段：将 MapTask 的结果输出到默认大小为 100M 的环形缓冲区，保存的是 key/value ， Partition 分区信息等。

2.Spill 阶段：当内存中的数据量达到一定的阀值的时候，就会将数据写入本地磁盘，在将数据写入磁盘之前需要对数据进行一次排序的操作，如果配置了

combiner ，还会将有相同分区号和 key 的数据进行排序。

3.Merge 阶段：把所有溢出的临时文件进行一次合并操作，以确保一个 MapTask 终只产生一个中间数据文件。

4.Copy 阶段： ReduceTask 启动 Fetcher 线程到已经完成 MapTask 的节点上复制一份属于自己的数据，这些数据默认会保存在内存的缓冲区中，当内存的缓冲区

达到一定的阀值的时候，就会将数据写到磁盘之上。

5.0Merge 阶段：在 ReduceTask 远程复制数据的同时，会在后台开启两个线程对内存到本地的数据文件进行合并操作。 6.Sort 阶段：在对数据进行合并的同时，会进行排序操作，由于 MapTask 阶段已经对数据进行了局部的排序， ReduceTask 只需保证 Copy 的数据的终整体有效性

即可。

Shuffle 中的缓冲区大小会影响到 mapreduce 程序的执行效率，原则上说，缓冲区越大，磁盘 io 的次数越少，执行速度就越快。缓冲区的大小可以通过参数调

整，参数： io.sort.mb 默认 100M

解析：

60、简述有监督学习、无监督学习、半监督学习和强化学习。

（0.7分）

正确答案:

前三个考虑数据标记最后一个考虑奖励或惩罚函数。

解析：

61、使用特征独立假设，在如下数据集中，计算P（“是否有风=否”，”湿度=高“，|“是否适合打网球=是”）

天气

温度

湿度

是否有风

是否适合打网球晴热高否否晴热高是否阴热高否是雨温高否是雨凉爽中否是雨凉爽中是否阴凉爽中是是晴温高否否晴凉爽

中否是雨温中否是晴温中是是阴温高是是阴热中否是雨温高是否

（0.7分）

正确答案:

解析：

62、大数据分层架构中，各层的作用和常用组件有哪些？

分层结构有哪些好处

（0.7分）

正确答案:

解析：

63、简述大数据处理的四个基本阶段

（0.7分）

正确答案:

数据采集、数据存储、数据分析和计算、数据可视化

解析：

64、简述可视化技术支持计算机辅助数据认识的三个基本阶段

（0.7分）

正确答案:

数据表达

数据操作

数据分析解析：

65、简述数据可视化流程的四个基本步骤。

（0.7分）

正确答案:

数据获取

数据处理

可视化模式

可视化应用

解析：

66、简述 Hive 的特点是什么。

（0.7分）

正确答案:

Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的 SQL 查询功能，可以将 SQL 语句转换为 MapReduce 任务进

行运行。其优点是学习成本低，可以通过类 SQL 语句快速实现简单的 MapReduce 统计，不必开发专门的 MapReduce 应用，十分适合数据仓库的统计分析。

解析：

67、简述Hive中内部表与外部表区别。

（0.7分）

正确答案:

创建表阶段：

外部表创建表的时候，不会移动数到数据仓库目录中（/user/hive/warehouse），只会记录表数据存放的路径，内部表会把数据复制或剪切到表的目录下。

删除表阶段：

外部表在删除表的时候只会删除表的元数据信息不会删除表数据，内部表删除时会将元数据信息和表数据同时删除

解析：

68、怎样对聚类算法的结果进行评价？

（0.8分）

正确答案:

解析：

69、如下数据集中，决策目标为是否适合打网球，计算节点为“天气”的信息增益

log2(9/14)=-0.6374299206152917

log2（5/14）=-1.4854268271702418

天气

温度

湿度

是否有风

是否适合打网球晴热高否否晴热高是否阴热高否是雨温高否是雨凉爽中否是雨凉爽中是否阴凉爽中是是晴温高否否晴凉爽

中否是雨温中否是晴温中是是阴温高是是阴热中否是雨温高是否

（0.8分）

正确答案:

信息增益=节点分裂前的熵减去分裂后的熵。

节点分裂前的熵：

其中：P1=9/14 是否适合打网球=是的概率； P2=5/14 是否适合打网球=否的概率；

en=-9/14*math.log2(9/14)-5/14*math.log2(5/14)= 0.9402859586706311

计算

天气=晴的熵

en(2/5,3/5)=-2/5log2/5-3/5log3/5=0.971

天气=阴的熵

en(4/4,0)=-1log1-0log0=0

天气=雨的熵

en(3/5,2/5)=-3/5log3/5-2/5log2/5=0.971

天气的期望信息熵

5/14*0.971+4/14*0+5/14*0.971=0.693

天气的信息增益 0.940-0.693=0.247

解析：

六、论述题 （共3题，10分）

70、谈一下对大数据的认识，并举例说明大数据的应用

（3.3分）

正确答案:

1、大数据理解

2、大数据的特点

3、大数据的应用

4、举例

解析：

71、大数据中hadoop核心技术是什么？

（3.3分）

正确答案:

HDFS

MApreduce

YARN

若能进一步说出不同版本的区别加分。

解析：

72、展望一下大数据在商业应用中前景和可能面临的问题

（3.4分）

正确答案:

问题：1、大数据杀熟

2、隐私保护

3、风险敏感问题

解析：

七、其它 （共1题，10分） 73、以下mapreduce程序代码段，实现的功能是？

public class Merge {

public static class Map extends Mapper < LongWritable , Text , Text , Text >

{

protected void map ( LongWritable key , Text value , Mapper < LongWritable , Text , Text , Text >. Context context )

throws IOException , InterruptedException {

String str = value . toString ();

String [] data = str . split ( " " );

Text t1 = new Text ( data [ 0 ]);

Text t2 = new Text ( data [ 1 ]);

context . write ( t1 , t2 );

}

public static class Reduce extends Reducer < Text , Text , Text , Text >

{

protected void reduce ( Text key , Iterable < Text > values , Reducer < Text , Text , Text , Text >. Context context )

throws IOException , InterruptedException {

List < String > list = new ArrayList <>();

for ( Text text : values ) {

String str = text . toString ();

if (! list . contains ( str )){

list . add ( str );

}

Collections . sort ( list );

for ( String text : list ) {

context . write ( key , new Text ( text ));

}

/********** End **********/

}

public static void main ( String [] args ) throws Exception {

Configuration conf = new Configuration ();

Job job = new Job ( conf , "word count" );

job . setJarByClass ( Merge . class );

job . setMapperClass ( Map . class );

job . setCombinerClass ( Reduce . class );

job . setReducerClass ( Reduce . class );

job . setOutputKeyClass ( Text . class );

job . setOutputValueClass ( Text . class );

String inputPath = "/user/tmp/input/" ; // 在这里设置输入路径

String outputPath = "/user/tmp/output/" ; // 在这里设置输出路径

FileInputFormat . addInputPath ( job , new Path ( inputPath ));

FileOutputFormat . setOutputPath ( job , new Path ( outputPath ));

System . exit ( job . waitForCompletion ( true ) ? 0 : 1 );

}

（10分）

正确答案:

使用

Map/Reduce

编程实现文件合并和去重操作。

/**

* @param args

* 对 A,B 两个文件进行合并，并剔除其中重复的内容，得到一个新的输出文件 C

// 在这重载 map 函数，直接将输入中的 value 复制到输出数据的 key 上注意在 map 方法中要抛出异常： throws IOException,InterruptedException

/********** Begin **********/

// 在这重载 reduce 函数，直接将输入中的 key 复制到输出数据的 key 上注意在 reduce 方法上要抛出异常： throws IOException,InterruptedException 解析：

m0_67419805

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
模拟卷（都有）

是否适合打网球晴热高否否晴热高是否阴热高否是雨温高否是雨凉爽中否是雨凉爽中是否阴凉爽中是是晴温高否否晴凉爽。是否适合打网球晴热高否否晴热高是否阴热高否是雨温高否是雨凉爽中否是雨凉爽中是否阴凉爽中是是晴温高否否晴凉爽。中否是雨温中否是晴温中是是阴温高是是阴热中否是雨温高是否。
复制链接

扫一扫