返回
包含答案 包含解析
显示答案
1、
关于Secondary NameNode哪项是正确?(0.9分)
A、
B、
C、
D、
2、
Hadoop2.x版本中的数据块大小默认是多少?(0.9分)
A、
B、
C、
D、
3、
下列描述说法错误的是?(0.9分)
A、
B、
C、
D、
4、
下面关于MapReduce模型中Map函数与Reduce函数的描述正确的是()(0.9分)
A、
B、
C、
D、
大数据开发技术模拟试卷(1)
创建人:赵长伟 | 题量:73 | 满分:80 分
一、单选题
(共22题,20分)
它是 NameNode 的热备
它对内存没有要求
它的目的是帮助 NameNode合并编辑日志,减少NameNode启动时间
SecondaryNameNode 应与NameNode部署到一个节点
正确答案: C
解析:
64M
128M
256M
512M
正确答案: B
解析:
SecureCRT是一款支持SSH的终端仿真程序,它能够在Windows操作系统上远程连接Linux服务器执行操作。
Hadoop是一个用于处理大数据的分布式集群架构,支持在GNU/Linux系统以及Windows系统上进行安装使用。
VMware Workstation是一款虚拟计算机的软件,用户可以在单一的桌面上同时操作不同的操作系统。
SSH是一个软件,专为远程登录会话和其他网络服务提供安全性功能的软件。
正确答案: D
解析:
一个Map函数就是对一部分原始数据进行指定的操作。
一个Map操作就是对每个Reduce所产生的一部分中间结果进行合并操作。
Map与Map之间不是相互独立的。
Reducee与Reduce之间不是相互独立的。
查看试卷
试卷导出
大数据开发技术...
课程门户
首页 活动 统计 资料 通知 作业
考试
分组任务(PBL) 讨论 管理
河南科技大学
赵长伟
正确答案: A
解析:花间集的答案解析
5、
MapReduce适用于()(0.9分)
A、
任意应用程序
B、
任意可以在Windows Server 2008上的应用程序
C、
可以串行处理的应用程序
D、
可以并行处理的应用程序
正确答案: D
解析:花间集的答案解析
6、
HDFS中用于减少Namenode节点负载的是()
(0.9分)
A、
NameNode
B、
DataNode
C、
Secondary NameNode
D、
ResourceManager
正确答案: C
解析:
7、
下列哪项通常是集群的最主要的性能瓶颈?
(0.9分)
A、
CPU
B、
网络
C、
磁盘
D、
内存
正确答案: C
解析:
花间集的答案解析
8、
关以下选项中,HDFS中存储存储集群元数据的是()
(0.9分)
A、
NameNode
B、
DataNode
C、
Secondary NameNode
D、
ResourceManager
正确答案: A
解析:
9、
关以下选项中,负责HDFS数据存储的节点是()
(0.9分)
A、
NameNode
B、
DataNode
C、
Secondary NameNode
D、
ResourceManager
正确答案: B
解析:
10、
假设您正在从事股票市场预测。 您想预测某家公司明天的股票价格(通过对之前股票价格或相关信息进行训练)。
您会将其视为分类问题还是回归问题?
(0.9分)
A、
分类
B、
回归
正确答案: B
解析:
11、
假设从事天气预报,想预测明天下午 5 点是否会下雨。 您想为此使用学习算法。
您会将其视为分类问题还是回归问题?
(0.9分)
A、
分类
B、
回归
正确答案: A
解析:
12、
假设您正在从事股票市场预测。 您想预测某家公司是否会在未来 7 天内宣布破产(通过对之前有破产风险的类似公司的数据进行训练)。
您会将其视为分类问题还是回归问题?
(0.9分)
A、
分类
B、
回归
正确答案: A
解析:
13、
假设从事天气预报,想预测明天下午 5 点的降雨量。 您想为此使用学习算法。
您会将其视为分类问题还是回归问题?
(0.9分)
A、
分类
B、
回归
正确答案: B
解析:
14、
按粒度大小的顺序,Hive数据被分为:数据库、数据表、()、桶
(0.9分)
A、
元祖
B、
栏
C、
分区
D、
行
正确答案: C
解析:
15、
以下选项中,哪种类型间的转换是被Hive查询语言所支持的()(0.9分)
A、
Double—Number
B、
BigInt—Double
C、
Int—BigInt
D、
String—Double
正确答案: D
解析:
16、
Hive是建立在()之上的一个数据仓库(0.9分)
A、
HDFS
B、
MapReduce
C、
Hadoop
D、
HBase
正确答案: C
解析:
17、
聚类数目不需要用户指定的是
(0.9分)
A、
亲近度传播聚类
B、
k均值聚类
C、
基于密度的聚类
正确答案: A
解析:
18、
聚类评价标准是类间相似度
(0.9分)
A、
高
B、
低
C、
合适
正确答案: B
解析:
19、
决策树方法中,使用信息增益率做为分裂节点选择的是
(0.9分)
A、
ID3
B、
C4.5
C、
CART
正确答案: B
解析:
20、
决策树方法中,使用信息增益做为分裂节点选择的是
(0.9分)
A、
ID3
B、
C4.5
C、
CART
正确答案: A
解析:
21、
假设您刚刚加入了一个产品团队,该团队使用m=1000个培训示例开发了一个机器学习应用程序。您发现您可以选择雇用其他人员来帮助收集和标记数
据。您估计,您必须支付每个标记人员每小时10美元,每个标记人员每分钟可以贴标4个示例。标记10000个新的 示例 大约需要多少费用?
(1分)
A、
$400
B、
$600
C、
$10,000
D、
$250
正确答案: A
解析:
22、
在大型数据集中,一般包含缺失数据,对缺失数据的处理方法,不合适的是
(1分)
A、
少量缺失数据,丢弃对应的样例
B、
均值填充
C、
中位数填充
D、
随机填充
正确答案: D
解析:
二、多选题
(共3题,10分)
23、
客户端上传文件的时候哪项是正确的?(3.3分)
A、
数据经过 NameNode 传递给 DataNode
B、
客户端端将文件切分为多个Block,依次上传
C、
客户端只上传数据到一台 DataNode,然后由 NameNode 负责 Block 复制工作
D、
客户端发起文件上传请求,通过RPC与NameNode建立通讯。
正确答案: B D
解析:
24、
配置Hadoop集群时,下列哪个Hadoop配置文件需要进行修改?(多选)(3.3分)
A、
hadoop-env.sh
B、
profile
C、
core-site.xml
D、
ifcfg-eth0
正确答案: A C
解析:
25、
基于密度的聚类适合下列哪些数据分布
(3.4分)
A、
B、
C、
D、
正确答案: A B C
解析:
三、填空题
(共23题,10分)
26、
NameNode以元数据形式维护着_______、________文件。(0.4分)
正确答案
第一空:
fsimage
第二空:
EditLog
解析:;
27、
NameNode与DataNode通过_______机制互相通信。(0.4分)
正确答案
第一空:
心跳监测
解析:;
28、
加载环境变量配置文件需要使用______命令。(0.4分)
正确答案
第一空:
source /etc/profile
解析:;
29、
Hadoop默认开设HDFS文件系统端口号_______和监控Yarn集群端口号______。(0.4分)
正确答案
第一空:
50070
第二空:
8088
解析:;
30、
Hadoop集群部署方式分别是______、______和______。(0.4分)
正确答案
第一空:
独立模式
第二空:
伪分布式模式
第三空:
完全分布式模式
解析:;
31、
Partitioner组件目的是___________。(0.4分)
正确答案
第一空:
将key均匀分布在ReduceTask上;
解析:中国诗经的写作方式不包括赋、比、兴。
32、
MapReduce工作流程分为____、____、____、____、____。(0.4分)
正确答案
第一空:
分片、格式化数据源、执行MapTask、执行Shuffle过程、执行ReduceTask、写入文件;
解析:中国诗经的写作方式不包括赋、比、兴。
33、
对于仅有少部分有标记的数据,使用()学习方法。
(0.4分)
正确答案
第一空:
半监督
解析:
34、
按照数据集中是否给出标记项,可以将机器学习方法划分为有监督学习和()
(0.4分)
正确答案
第一空:
无监督学习
解析:
35、
Hadoop三大组件包含______、______、______。(0.4分)
正确答案
第一空:
HDFS、MapReduce、Yarn
解析:
36、
Hadoop2.x版本中的HDFS是由______、______、______组成。(0.4分)
正确答案
第一空:
NameNode、DataNode、Secondary NameNode
解析:
37、
大数据的4V特征包含______、______、______、______。(0.4分)
正确答案
第一空:
大量、多样、高速、价值
解析:
38、
Hive创建桶表关键字_____,且Hive默认分桶数量是_______。
(0.4分)
正确答案
第一空:
clustered by、-1
解析:
39、
Hive建表时设置分割字符命令__________(0.4分)
正确答案
第一空:
row format delimited fields terminated by char
解析:中国诗经的写作方式不包括赋、比、兴。
40、
Hive查询语句select ceil(2.34)输出内容是______。
(0.4分)
正确答案
第一空:
3
解析:
41、
使用信息增益,对于申请贷款的数据集,如下:
第一个节点划分的属性是()
(0.5分)
正确答案
第一空:
房子
解析:
42、
对于申请贷款的数据集,如下:
信用的信息增益()
(0.5分)
正确答案
第一空:
0.299
解析:
43、
对于申请贷款的数据集,如下:
年龄的信息增益()
(0.5分)
正确答案
第一空:
0.011
解析:
44、
在centos中,若
#配置Hbase环境变量 文件是
vi /etc/profile
#是环境变量生效命令是
(0.5分)
正确答案
第一空:
source /etc/profile
解析:
45、
补全hadoop下执行jar包文件的命令:
>>_______________ (jar file name) (className_along_with_packageName) (input file) (output folderpath)
(0.5分)
正确答案
第一空:
hadoop jar
解析:
46、
启动HBase(环境变量配置好后) 命令是
(0.5分)
正确答案
第一空:
start-hbase.sh
解析:
47、
hadoop下的将本地文件上传到hadoop的命令
(0.5分)
正确答案
第一空:
hadoop fs -put
解析:
48、
下面给出的数据集样例(sample)数目个数是()
其中y是标记或预测值
(0.5分)
正确答案
第一空:
4
解析:
四、判断题
(共7题,10分)
49、
NameNode本地磁盘保存了数据块的位置信息。
(1.4分)
正确答案:
错误
解析:
50、
布式模式下的Hadoop功能与完全分布式模式下的Hadoop功能相同。(1.4分)
正确答案:
正确
解析:
51、
Hadoop存在多个副本,且默认备份数量是3。
(1.4分)
正确答案:
正确
解析:
52、
hadoop是Java语言开发的,因此在搭建Hadoop集群时,需要为集群安装JDK环境变量。
(1.4分)
正确答案:
正确
解析:
53、
在MapReduce程序中,必须开发Map和Reduce相应的业务代码才能执行程序。
(1.4分)
正确答案:
错误
解析:
54、
Hadoop是由Java语言开发的。(1.5分)
正确答案:
正确
解析:多音节是中国语言文化的特性的答案解析
55、
在Hadoop集群中,NameNode负责管理所有DataNode(1.5分)
正确答案:
正确
解析:
五、简答题
(共14题,10分)
56、
简述HDFS上传文件工作流程
(0.7分)
正确答案:
client 通过namenode 分配DataNode节点 并记录存储位置
解析:
57、
简述 Name Node
与
SecondaryName Node
的区别与联系。
(0.7分)
正确答案:
解析:
58、
简述什么是SSH以及SSH协议解决的问题。
(0.7分)
正确答案:
SSH为Secure Shell的缩写,它是一种网络安全协议,专为远程登录会话和其他网络服务提供安全性的协议。通过使用SSH服务,可以把传输的数据进行加密,
有效防止远程管理过程中的信息泄露问题。
解析:
SSH为Secure Shell的缩写,它是一种网络安全协议,专为远程登录会话和其他网络服务提供安全性的协议。通过使用SSH服务,可以把传输的数据进行加密,
有效防止远程管理过程中的信息泄露问题。
59、
简述
Shuffle
工作流程。
(0.7分)
正确答案:
map
阶段处理的数据如何传递给
reduce
阶段,是
MapReduce
框架中关键的一个流程,这个流程就叫
shuffle
。
shuffle:
洗牌、发牌
--
(核心机制:数据分区,排序,合并)。
shuffle
是
Mapreduce
的核心,它分布在
Mapreduce
的
map
阶段和
reduce
阶段。一般把从
Map
产生输出开始到
Reduce
取得数据作为输入之前的过程称作
shuffle
。
1.Collect
阶段:将
MapTask
的结果输出到默认大小为
100M
的环形缓冲区,保存的是
key/value
,
Partition
分区信息等。
2.Spill
阶段:当内存中的数据量达到一定的阀值的时候,就会将数据写入本地磁盘,在将数据写入磁盘之前需要对数据进行一次排序的操作,如果配置了
combiner
,还会将有相同分区号和
key
的数据进行排序。
3.Merge
阶段:把所有溢出的临时文件进行一次合并操作,以确保一个
MapTask
终只产生一个中间数据文件。
4.Copy
阶段:
ReduceTask
启动
Fetcher
线程到已经完成
MapTask
的节点上复制一份属于自己的数据,这些数据默认会保存在内存的缓冲区中,当内存的缓冲区
达到一定的阀值的时候,就会将数据写到磁盘之上。
5.0Merge
阶段:在
ReduceTask
远程复制数据的同时,会在后台开启两个线程对内存到本地的数据文件进行合并操作。
6.Sort
阶段:在对数据进行合并的同时,会进行排序操作,由于
MapTask
阶段已经对数据进行了局部的排序,
ReduceTask
只需保证
Copy
的数据的 终整体有效性
即可。
Shuffle
中的缓冲区大小会影响到
mapreduce
程序的执行效率,原则上说,缓冲区越大,磁盘
io
的次数越少,执行速度就越快。缓冲区的大小可以通过参数调
整, 参数:
io.sort.mb
默认
100M
解析:
60、
简述有监督学习、无监督学习、半监督学习和强化学习。
(0.7分)
正确答案:
前三个考虑数据标记 最后一个考虑奖励或惩罚函数。
解析:
61、
使用特征独立假设,在如下数据集中,计算P(“是否有风=否”,”湿度=高“,|“是否适合打网球=是”)
天气
温度
湿度
是否有风
是否适合打网球 晴 热 高 否 否 晴 热 高 是 否 阴 热 高 否 是 雨 温 高 否 是 雨 凉爽 中 否 是 雨 凉爽 中 是 否 阴 凉爽 中 是 是 晴 温 高 否 否 晴 凉爽
中 否 是 雨 温 中 否 是 晴 温 中 是 是 阴 温 高 是 是 阴 热 中 否 是 雨 温 高 是 否
(0.7分)
正确答案:
解析:
62、
大数据分层架构中,各层的作用和常用组件有哪些?
分层结构有哪些好处
(0.7分)
正确答案:
解析:
63、
简述大数据处理的四个基本阶段
(0.7分)
正确答案:
数据采集、数据存储、数据分析和计算、数据可视化
解析:
64、
简述可视化技术支持计算机辅助数据认识的三个基本阶段
(0.7分)
正确答案:
数据表达
数据操作
数据分析
解析:
65、
简述数据可视化流程的四个基本步骤。
(0.7分)
正确答案:
数据获取
数据处理
可视化模式
可视化应用
解析:
66、
简述
Hive
的特点是什么。
(0.7分)
正确答案:
Hive
是基于
Hadoop
的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的
SQL
查询功能,可以将
SQL
语句转换为
MapReduce
任务进
行运行。其优点是学习成本低,可以通过类
SQL
语句快速实现简单的
MapReduce
统计,不必开发专门的
MapReduce
应用,十分适合数据仓库的统计分析。
解析:
67、
简述Hive中内部表与外部表区别。
(0.7分)
正确答案:
创建表阶段:
外部表创建表的时候,不会移动数到数据仓库目录中(/user/hive/warehouse),只会记录表数据存放的路径,内部表会把数据复制或剪切到表的目录下。
删除表阶段:
外部表在删除表的时候只会删除表的元数据信息不会删除表数据,内部表删除时会将元数据信息和表数据同时删除
解析:
68、
怎样对聚类算法的结果进行评价?
(0.8分)
正确答案:
解析:
69、
如下数据集中,决策目标为是否适合打网球,计算节点为“天气”的信息增益
log2(9/14)=-0.6374299206152917
log2(5/14)=-1.4854268271702418
天气
温度
湿度
是否有风
是否适合打网球 晴 热 高 否 否 晴 热 高 是 否 阴 热 高 否 是 雨 温 高 否 是 雨 凉爽 中 否 是 雨 凉爽 中 是 否 阴 凉爽 中 是 是 晴 温 高 否 否 晴 凉爽
中 否 是 雨 温 中 否 是 晴 温 中 是 是 阴 温 高 是 是 阴 热 中 否 是 雨 温 高 是 否
(0.8分)
正确答案:
信息增益=节点分裂前的熵减去分裂后的熵。
节点分裂前的熵:
其中:P1=9/14 是否适合打网球=是 的概率;
P2=5/14 是否适合打网球=否 的概率;
en=-9/14*math.log2(9/14)-5/14*math.log2(5/14)= 0.9402859586706311
计算
天气=晴的熵
en(2/5,3/5)=-2/5log2/5-3/5log3/5=0.971
天气=阴的熵
en(4/4,0)=-1log1-0log0=0
天气=雨的熵
en(3/5,2/5)=-3/5log3/5-2/5log2/5=0.971
天气的期望信息熵
5/14*0.971+4/14*0+5/14*0.971=0.693
天气的信息增益 0.940-0.693=0.247
解析:
六、论述题
(共3题,10分)
70、
谈一下对大数据的认识,并举例说明大数据的应用
(3.3分)
正确答案:
1、大数据理解
2、大数据的特点
3、大数据的应用
4、举例
解析:
71、
大数据中hadoop核心技术是什么?
(3.3分)
正确答案:
HDFS
MApreduce
YARN
若能进一步说出不同版本的区别加分。
解析:
72、
展望一下大数据在商业应用中前景和可能面临的问题
(3.4分)
正确答案:
问题:1、大数据杀熟
2、隐私保护
3、风险敏感问题
解析:
七、其它
(共1题,10分)
73、
以下mapreduce程序代码段,实现的功能是?
public class
Merge
{
public static class
Map
extends
Mapper
<
LongWritable
,
Text
,
Text
,
Text
>
{
protected void
map
(
LongWritable
key
,
Text
value
,
Mapper
<
LongWritable
,
Text
,
Text
,
Text
>.
Context
context
)
throws
IOException
,
InterruptedException
{
String
str
=
value
.
toString
();
String
[]
data
=
str
.
split
(
" "
);
Text
t1
=
new
Text
(
data
[
0
]);
Text
t2
=
new
Text
(
data
[
1
]);
context
.
write
(
t1
,
t2
);
}
}
public static class
Reduce
extends
Reducer
<
Text
,
Text
,
Text
,
Text
>
{
protected void
reduce
(
Text
key
,
Iterable
<
Text
>
values
,
Reducer
<
Text
,
Text
,
Text
,
Text
>.
Context
context
)
throws
IOException
,
InterruptedException
{
List
<
String
>
list
=
new
ArrayList
<>();
for
(
Text
text
:
values
) {
String
str
=
text
.
toString
();
if
(!
list
.
contains
(
str
)){
list
.
add
(
str
);
}
}
Collections
.
sort
(
list
);
for
(
String
text
:
list
) {
context
.
write
(
key
,
new
Text
(
text
));
}
}
/********** End **********/
}
public static void
main
(
String
[]
args
)
throws
Exception
{
Configuration
conf
=
new
Configuration
();
Job
job
=
new
Job
(
conf
,
"word count"
);
job
.
setJarByClass
(
Merge
.
class
);
job
.
setMapperClass
(
Map
.
class
);
job
.
setCombinerClass
(
Reduce
.
class
);
job
.
setReducerClass
(
Reduce
.
class
);
job
.
setOutputKeyClass
(
Text
.
class
);
job
.
setOutputValueClass
(
Text
.
class
);
String
inputPath
=
"/user/tmp/input/"
;
//
在这里设置输入路径
String
outputPath
=
"/user/tmp/output/"
;
//
在这里设置输出路径
FileInputFormat
.
addInputPath
(
job
,
new
Path
(
inputPath
));
FileOutputFormat
.
setOutputPath
(
job
,
new
Path
(
outputPath
));
System
.
exit
(
job
.
waitForCompletion
(
true
) ?
0
:
1
);
}
}
(10分)
正确答案:
使用
Map/Reduce
编程实现文件合并和去重操作。
/**
* @param args
*
对
A,B
两个文件进行合并,并剔除其中重复的内容,得到一个新的输出文件
C
*/
//
在这重载
map
函数,直接将输入中的
value
复制到输出数据的
key
上 注意在
map
方法中要抛出异常:
throws IOException,InterruptedException
/********** Begin **********/
//
在这重载
reduce
函数,直接将输入中的
key
复制到输出数据的
key
上 注意在
reduce
方法上要抛出异常:
throws IOException,InterruptedException
解析: