模拟卷(都有)

返回
包含答案 包含解析
显示答案
1、 关于Secondary NameNode哪项是正确?(0.9分)
A、
B、
C、
D、
2、 Hadoop2.x版本中的数据块大小默认是多少?(0.9分)
A、
B、
C、
D、
3、 下列描述说法错误的是?(0.9分)
A、
B、
C、
D、
4、 下面关于MapReduce模型中Map函数与Reduce函数的描述正确的是()(0.9分)
A、
B、
C、
D、
大数据开发技术模拟试卷(1)
创建人:赵长伟 | 题量:73 | 满分:80 分
一、单选题 (共22题,20分)
它是 NameNode 的热备
它对内存没有要求
它的目的是帮助 NameNode合并编辑日志,减少NameNode启动时间
SecondaryNameNode 应与NameNode部署到一个节点
正确答案: C
解析:
64M
128M
256M
512M
正确答案: B
解析:
SecureCRT是一款支持SSH的终端仿真程序,它能够在Windows操作系统上远程连接Linux服务器执行操作。
Hadoop是一个用于处理大数据的分布式集群架构,支持在GNU/Linux系统以及Windows系统上进行安装使用。
VMware Workstation是一款虚拟计算机的软件,用户可以在单一的桌面上同时操作不同的操作系统。
SSH是一个软件,专为远程登录会话和其他网络服务提供安全性功能的软件。
正确答案: D
解析:
一个Map函数就是对一部分原始数据进行指定的操作。
一个Map操作就是对每个Reduce所产生的一部分中间结果进行合并操作。
Map与Map之间不是相互独立的。
Reducee与Reduce之间不是相互独立的。
查看试卷
试卷导出
大数据开发技术... 课程门户
首页 活动 统计 资料 通知 作业 考试 分组任务(PBL) 讨论 管理
河南科技大学
赵长伟 正确答案: A
解析:花间集的答案解析
5、 MapReduce适用于()(0.9分)
A、 任意应用程序
B、 任意可以在Windows Server 2008上的应用程序
C、 可以串行处理的应用程序
D、 可以并行处理的应用程序
正确答案: D
解析:花间集的答案解析
6、 HDFS中用于减少Namenode节点负载的是()
(0.9分)
A、 NameNode
B、 DataNode
C、 Secondary NameNode
D、 ResourceManager
正确答案: C
解析:
7、 下列哪项通常是集群的最主要的性能瓶颈?
(0.9分)
A、 CPU
B、 网络
C、 磁盘
D、 内存
正确答案: C
解析:
花间集的答案解析
8、 关以下选项中,HDFS中存储存储集群元数据的是()
(0.9分)
A、 NameNode
B、 DataNode
C、 Secondary NameNode
D、 ResourceManager
正确答案: A
解析:
9、 关以下选项中,负责HDFS数据存储的节点是() (0.9分)
A、 NameNode
B、 DataNode
C、 Secondary NameNode
D、 ResourceManager
正确答案: B
解析:
10、
假设您正在从事股票市场预测。 您想预测某家公司明天的股票价格(通过对之前股票价格或相关信息进行训练)。
您会将其视为分类问题还是回归问题?
(0.9分)
A、 分类
B、 回归
正确答案: B
解析:
11、 假设从事天气预报,想预测明天下午 5 点是否会下雨。 您想为此使用学习算法。
您会将其视为分类问题还是回归问题?
(0.9分)
A、 分类
B、 回归
正确答案: A
解析:
12、 假设您正在从事股票市场预测。 您想预测某家公司是否会在未来 7 天内宣布破产(通过对之前有破产风险的类似公司的数据进行训练)。
您会将其视为分类问题还是回归问题?
(0.9分)
A、 分类
B、 回归
正确答案: A
解析:
13、 假设从事天气预报,想预测明天下午 5 点的降雨量。 您想为此使用学习算法。
您会将其视为分类问题还是回归问题?
(0.9分)
A、 分类
B、 回归 正确答案: B
解析:
14、 按粒度大小的顺序,Hive数据被分为:数据库、数据表、()、桶
(0.9分)
A、 元祖
B、
C、 分区
D、
正确答案: C
解析:
15、 以下选项中,哪种类型间的转换是被Hive查询语言所支持的()(0.9分)
A、 Double—Number
B、 BigInt—Double
C、 Int—BigInt
D、 String—Double
正确答案: D
解析:
16、 Hive是建立在()之上的一个数据仓库(0.9分)
A、 HDFS
B、 MapReduce
C、 Hadoop
D、 HBase
正确答案: C
解析:
17、 聚类数目不需要用户指定的是
(0.9分)
A、 亲近度传播聚类
B、 k均值聚类
C、 基于密度的聚类
正确答案: A
解析:
18、 聚类评价标准是类间相似度
(0.9分)
A、 B、
C、 合适
正确答案: B
解析:
19、 决策树方法中,使用信息增益率做为分裂节点选择的是
(0.9分)
A、 ID3
B、 C4.5
C、 CART
正确答案: B
解析:
20、 决策树方法中,使用信息增益做为分裂节点选择的是
(0.9分)
A、 ID3
B、 C4.5
C、 CART
正确答案: A
解析:
21、
假设您刚刚加入了一个产品团队,该团队使用m=1000个培训示例开发了一个机器学习应用程序。您发现您可以选择雇用其他人员来帮助收集和标记数
据。您估计,您必须支付每个标记人员每小时10美元,每个标记人员每分钟可以贴标4个示例。标记10000个新的 示例 大约需要多少费用?
(1分)
A、 $400
B、 $600
C、 $10,000
D、 $250
正确答案: A
解析:
22、 在大型数据集中,一般包含缺失数据,对缺失数据的处理方法,不合适的是
(1分)
A、 少量缺失数据,丢弃对应的样例
B、 均值填充
C、 中位数填充
D、 随机填充
正确答案: D
解析: 二、多选题 (共3题,10分)
23、 客户端上传文件的时候哪项是正确的?(3.3分)
A、 数据经过 NameNode 传递给 DataNode
B、 客户端端将文件切分为多个Block,依次上传
C、 客户端只上传数据到一台 DataNode,然后由 NameNode 负责 Block 复制工作
D、 客户端发起文件上传请求,通过RPC与NameNode建立通讯。
正确答案: B D
解析:
24、 配置Hadoop集群时,下列哪个Hadoop配置文件需要进行修改?(多选)(3.3分)
A、 hadoop-env.sh
B、 profile
C、 core-site.xml
D、 ifcfg-eth0
正确答案: A C
解析:
25、 基于密度的聚类适合下列哪些数据分布
(3.4分)
A、
B、
C、
D、
正确答案: A B C
解析:
三、填空题 (共23题,10分)
26、 NameNode以元数据形式维护着_______、________文件。(0.4分)
正确答案
第一空: fsimage
第二空: EditLog
解析:;
27、 NameNode与DataNode通过_______机制互相通信。(0.4分) 正确答案
第一空: 心跳监测
解析:;
28、 加载环境变量配置文件需要使用______命令。(0.4分)
正确答案
第一空: source /etc/profile
解析:;
29、 Hadoop默认开设HDFS文件系统端口号_______和监控Yarn集群端口号______。(0.4分)
正确答案
第一空: 50070
第二空: 8088
解析:;
30、 Hadoop集群部署方式分别是______、______和______。(0.4分)
正确答案
第一空: 独立模式
第二空: 伪分布式模式
第三空: 完全分布式模式
解析:;
31、 Partitioner组件目的是___________。(0.4分)
正确答案
第一空: 将key均匀分布在ReduceTask上;
解析:中国诗经的写作方式不包括赋、比、兴。
32、 MapReduce工作流程分为____、____、____、____、____。(0.4分)
正确答案
第一空: 分片、格式化数据源、执行MapTask、执行Shuffle过程、执行ReduceTask、写入文件;
解析:中国诗经的写作方式不包括赋、比、兴。
33、 对于仅有少部分有标记的数据,使用()学习方法。
(0.4分)
正确答案
第一空: 半监督
解析:
34、 按照数据集中是否给出标记项,可以将机器学习方法划分为有监督学习和()
(0.4分)
正确答案
第一空: 无监督学习 解析:
35、 Hadoop三大组件包含______、______、______。(0.4分)
正确答案
第一空: HDFS、MapReduce、Yarn
解析:
36、 Hadoop2.x版本中的HDFS是由______、______、______组成。(0.4分)
正确答案
第一空: NameNode、DataNode、Secondary NameNode
解析:
37、 大数据的4V特征包含______、______、______、______。(0.4分)
正确答案
第一空: 大量、多样、高速、价值
解析:
38、 Hive创建桶表关键字_____,且Hive默认分桶数量是_______。
(0.4分)
正确答案
第一空: clustered by、-1
解析:
39、 Hive建表时设置分割字符命令__________(0.4分)
正确答案
第一空: row format delimited fields terminated by char
解析:中国诗经的写作方式不包括赋、比、兴。
40、 Hive查询语句select ceil(2.34)输出内容是______。
(0.4分)
正确答案
第一空: 3
解析:
41、 使用信息增益,对于申请贷款的数据集,如下: 第一个节点划分的属性是()
(0.5分)
正确答案
第一空: 房子
解析:
42、 对于申请贷款的数据集,如下:
信用的信息增益()
(0.5分)
正确答案
第一空: 0.299
解析:
43、 对于申请贷款的数据集,如下: 年龄的信息增益()
(0.5分)
正确答案
第一空: 0.011
解析:
44、 在centos中,若
#配置Hbase环境变量 文件是
vi /etc/profile
#是环境变量生效命令是
(0.5分)
正确答案
第一空: source /etc/profile
解析:
45、 补全hadoop下执行jar包文件的命令:
>>_______________ (jar file name) (className_along_with_packageName) (input file) (output folderpath)
(0.5分)
正确答案
第一空: hadoop jar
解析:
46、 启动HBase(环境变量配置好后) 命令是
(0.5分)
正确答案
第一空: start-hbase.sh
解析:
47、 hadoop下的将本地文件上传到hadoop的命令
(0.5分)
正确答案 第一空: hadoop fs -put
解析:
48、 下面给出的数据集样例(sample)数目个数是()
其中y是标记或预测值
(0.5分)
正确答案
第一空: 4
解析:
四、判断题 (共7题,10分)
49、 NameNode本地磁盘保存了数据块的位置信息。
(1.4分)
正确答案: 错误
解析:
50、 布式模式下的Hadoop功能与完全分布式模式下的Hadoop功能相同。(1.4分)
正确答案: 正确
解析:
51、 Hadoop存在多个副本,且默认备份数量是3。
(1.4分)
正确答案: 正确
解析:
52、 hadoop是Java语言开发的,因此在搭建Hadoop集群时,需要为集群安装JDK环境变量。
(1.4分)
正确答案: 正确
解析:
53、 在MapReduce程序中,必须开发Map和Reduce相应的业务代码才能执行程序。
(1.4分)
正确答案: 错误
解析: 54、 Hadoop是由Java语言开发的。(1.5分)
正确答案: 正确
解析:多音节是中国语言文化的特性的答案解析
55、 在Hadoop集群中,NameNode负责管理所有DataNode(1.5分)
正确答案: 正确
解析:
五、简答题 (共14题,10分)
56、 简述HDFS上传文件工作流程
(0.7分)
正确答案:
client 通过namenode 分配DataNode节点 并记录存储位置
解析:
57、 简述 Name Node SecondaryName Node 的区别与联系。
(0.7分)
正确答案:
解析:
58、 简述什么是SSH以及SSH协议解决的问题。
(0.7分)
正确答案:
SSH为Secure Shell的缩写,它是一种网络安全协议,专为远程登录会话和其他网络服务提供安全性的协议。通过使用SSH服务,可以把传输的数据进行加密,
有效防止远程管理过程中的信息泄露问题。
解析:
SSH为Secure Shell的缩写,它是一种网络安全协议,专为远程登录会话和其他网络服务提供安全性的协议。通过使用SSH服务,可以把传输的数据进行加密,
有效防止远程管理过程中的信息泄露问题。
59、 简述 Shuffle 工作流程。
(0.7分)
正确答案:
map 阶段处理的数据如何传递给 reduce 阶段,是 MapReduce 框架中关键的一个流程,这个流程就叫 shuffle
shuffle: 洗牌、发牌 -- (核心机制:数据分区,排序,合并)。
shuffle Mapreduce 的核心,它分布在 Mapreduce map 阶段和 reduce 阶段。一般把从 Map 产生输出开始到 Reduce 取得数据作为输入之前的过程称作 shuffle
1.Collect 阶段:将 MapTask 的结果输出到默认大小为 100M 的环形缓冲区,保存的是 key/value Partition 分区信息等。
2.Spill 阶段:当内存中的数据量达到一定的阀值的时候,就会将数据写入本地磁盘,在将数据写入磁盘之前需要对数据进行一次排序的操作,如果配置了
combiner ,还会将有相同分区号和 key 的数据进行排序。
3.Merge 阶段:把所有溢出的临时文件进行一次合并操作,以确保一个 MapTask 终只产生一个中间数据文件。
4.Copy 阶段: ReduceTask 启动 Fetcher 线程到已经完成 MapTask 的节点上复制一份属于自己的数据,这些数据默认会保存在内存的缓冲区中,当内存的缓冲区
达到一定的阀值的时候,就会将数据写到磁盘之上。
5.0Merge 阶段:在 ReduceTask 远程复制数据的同时,会在后台开启两个线程对内存到本地的数据文件进行合并操作。 6.Sort 阶段:在对数据进行合并的同时,会进行排序操作,由于 MapTask 阶段已经对数据进行了局部的排序, ReduceTask 只需保证 Copy 的数据的 终整体有效性
即可。
Shuffle 中的缓冲区大小会影响到 mapreduce 程序的执行效率,原则上说,缓冲区越大,磁盘 io 的次数越少,执行速度就越快。缓冲区的大小可以通过参数调
整, 参数: io.sort.mb 默认 100M
解析:
60、 简述有监督学习、无监督学习、半监督学习和强化学习。
(0.7分)
正确答案:
前三个考虑数据标记 最后一个考虑奖励或惩罚函数。
解析:
61、 使用特征独立假设,在如下数据集中,计算P(“是否有风=否”,”湿度=高“,|“是否适合打网球=是”)
天气
温度
湿度
是否有风
是否适合打网球 晴 热 高 否 否 晴 热 高 是 否 阴 热 高 否 是 雨 温 高 否 是 雨 凉爽 中 否 是 雨 凉爽 中 是 否 阴 凉爽 中 是 是 晴 温 高 否 否 晴 凉爽
中 否 是 雨 温 中 否 是 晴 温 中 是 是 阴 温 高 是 是 阴 热 中 否 是 雨 温 高 是 否
(0.7分)
正确答案:
解析:
62、 大数据分层架构中,各层的作用和常用组件有哪些?
分层结构有哪些好处
(0.7分)
正确答案:
解析:
63、 简述大数据处理的四个基本阶段
(0.7分)
正确答案:
数据采集、数据存储、数据分析和计算、数据可视化
解析:
64、 简述可视化技术支持计算机辅助数据认识的三个基本阶段
(0.7分)
正确答案:
数据表达
数据操作
数据分析 解析:
65、 简述数据可视化流程的四个基本步骤。
(0.7分)
正确答案:
数据获取
数据处理
可视化模式
可视化应用
解析:
66、 简述 Hive 的特点是什么。
(0.7分)
正确答案:
Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的 SQL 查询功能,可以将 SQL 语句转换为 MapReduce 任务进
行运行。其优点是学习成本低,可以通过类 SQL 语句快速实现简单的 MapReduce 统计,不必开发专门的 MapReduce 应用,十分适合数据仓库的统计分析。
解析:
67、 简述Hive中内部表与外部表区别。
(0.7分)
正确答案:
创建表阶段:
外部表创建表的时候,不会移动数到数据仓库目录中(/user/hive/warehouse),只会记录表数据存放的路径,内部表会把数据复制或剪切到表的目录下。
删除表阶段:
外部表在删除表的时候只会删除表的元数据信息不会删除表数据,内部表删除时会将元数据信息和表数据同时删除
解析:
68、 怎样对聚类算法的结果进行评价?
(0.8分)
正确答案:
解析:
69、 如下数据集中,决策目标为是否适合打网球,计算节点为“天气”的信息增益
log2(9/14)=-0.6374299206152917
log2(5/14)=-1.4854268271702418
天气
温度
湿度
是否有风
是否适合打网球 晴 热 高 否 否 晴 热 高 是 否 阴 热 高 否 是 雨 温 高 否 是 雨 凉爽 中 否 是 雨 凉爽 中 是 否 阴 凉爽 中 是 是 晴 温 高 否 否 晴 凉爽
中 否 是 雨 温 中 否 是 晴 温 中 是 是 阴 温 高 是 是 阴 热 中 否 是 雨 温 高 是 否
(0.8分)
正确答案:
信息增益=节点分裂前的熵减去分裂后的熵。
节点分裂前的熵:
其中:P1=9/14 是否适合打网球=是 的概率; P2=5/14 是否适合打网球=否 的概率;
en=-9/14*math.log2(9/14)-5/14*math.log2(5/14)= 0.9402859586706311
计算
天气=晴的熵
en(2/5,3/5)=-2/5log2/5-3/5log3/5=0.971
天气=阴的熵
en(4/4,0)=-1log1-0log0=0
天气=雨的熵
en(3/5,2/5)=-3/5log3/5-2/5log2/5=0.971
天气的期望信息熵
5/14*0.971+4/14*0+5/14*0.971=0.693
天气的信息增益 0.940-0.693=0.247
解析:
六、论述题 (共3题,10分)
70、 谈一下对大数据的认识,并举例说明大数据的应用
(3.3分)
正确答案:
1、大数据理解
2、大数据的特点
3、大数据的应用
4、举例
解析:
71、 大数据中hadoop核心技术是什么?
(3.3分)
正确答案:
HDFS
MApreduce
YARN
若能进一步说出不同版本的区别加分。
解析:
72、 展望一下大数据在商业应用中前景和可能面临的问题
(3.4分)
正确答案:
问题:1、大数据杀熟
2、隐私保护
3、风险敏感问题
解析:
七、其它 (共1题,10分) 73、 以下mapreduce程序代码段,实现的功能是?
public class Merge {
public static class Map extends Mapper < LongWritable , Text , Text , Text >
{
protected void map ( LongWritable key , Text value , Mapper < LongWritable , Text , Text , Text >. Context context )
throws IOException , InterruptedException {
String str = value . toString ();
String [] data = str . split ( " " );
Text t1 = new Text ( data [ 0 ]);
Text t2 = new Text ( data [ 1 ]);
context . write ( t1 , t2 );
}
}
public static class Reduce extends Reducer < Text , Text , Text , Text >
{
protected void reduce ( Text key , Iterable < Text > values , Reducer < Text , Text , Text , Text >. Context context )
throws IOException , InterruptedException {
List < String > list = new ArrayList <>();
for ( Text text : values ) {
String str = text . toString ();
if (! list . contains ( str )){
list . add ( str );
}
}
Collections . sort ( list );
for ( String text : list ) {
context . write ( key , new Text ( text ));
}
}
/********** End **********/
}
public static void main ( String [] args ) throws Exception {
Configuration conf = new Configuration ();
Job job = new Job ( conf , "word count" );
job . setJarByClass ( Merge . class );
job . setMapperClass ( Map . class );
job . setCombinerClass ( Reduce . class );
job . setReducerClass ( Reduce . class );
job . setOutputKeyClass ( Text . class );
job . setOutputValueClass ( Text . class );
String inputPath = "/user/tmp/input/" ; // 在这里设置输入路径
String outputPath = "/user/tmp/output/" ; // 在这里设置输出路径
FileInputFormat . addInputPath ( job , new Path ( inputPath ));
FileOutputFormat . setOutputPath ( job , new Path ( outputPath ));
System . exit ( job . waitForCompletion ( true ) ? 0 : 1 );
}
}
(10分)
正确答案:
使用
Map/Reduce
编程实现文件合并和去重操作。
/**
* @param args
* A,B 两个文件进行合并,并剔除其中重复的内容,得到一个新的输出文件 C
*/
// 在这重载 map 函数,直接将输入中的 value 复制到输出数据的 key 上 注意在 map 方法中要抛出异常: throws IOException,InterruptedException
/********** Begin **********/
// 在这重载 reduce 函数,直接将输入中的 key 复制到输出数据的 key 上 注意在 reduce 方法上要抛出异常: throws IOException,InterruptedException 解析:
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值