大数据原理与应用期末答案

1.数据产生方式的变革主要经历了三个阶段,以下哪个不属于这三个阶段:

A.
数据流阶段

B.
运营式系统阶段

C.
用户原创内容阶段

D.
感知式系统阶段

2单选(2分)
第三次信息化浪潮的发生标志是以下哪种技术的普及

A.
物联网、云计算和大数据

B.
CPU

C.
个人计算机

D.
互联网

3单选(2分)
1TB = ( )MB

A.
2^20(备注:2的20次方)

B.
1024

C.
1000

D.
2^10(备注:2的10次方)

4单选(2分)
Hadoop的两大核心是 和

A.
HDFS; HBase

B.
MapReduce; HBase

C.
GFS; MapReduce

D.
HDFS; MapReduce

5单选(2分)
HDFS默认的一个块大小是

A.
32KB

B.
8KB

C.
64MB

D.
16KB

6单选(2分)
在分布式文件系统HDFS中, 负责数据的存储和读取

A.
数据节点

B.
名称节点

C.
主节点

D.
第二名称节点

7单选(2分)
上传当前目录下的本地文件file.txt到分布式文件系统HDFS的“/path”目录下的Shell命令是

A.
hdfs fs -put file.txt /path

B.
hdfs dfs -put file.txt /path

C.
hadoop dfs -put /path file.txt

D.
hdfs dfs -put /path file.txt

8单选(2分)
在HDFS根目录下创建一个文件夹/test,且/test文件夹内还包含一个文件夹dir,正确的shell命令是

A.
hadoop dfs -mkdir /test/dir

B.
hadoop fs -mkdir -p /test/dir

C.
hdfs fs -mkdir -p /test/dir

D.
hdfs dfs *mkdir -p /test/dir

9单选(2分)
下列有关HBase的说法正确的是

A.
HBase是针对谷歌BigTable的开源实现,是高可靠、高性能的图数据库

B.
在向数据库中插入记录时,HBase和关系数据库一样,每次都是以“行”为单位把整条记录插入数据库

C.
HBase数据库表可以设置该表任意列作为索引

D.
HBase是一种NoSQL数据库

10单选(2分)
已知一张表student存储在HBase中,向表中插入一条记录{id:2015001,name:Mary,{score:math}:88},其id作为行键,其中,在插入数学成绩88分时,正确的命令是

A.
put ‘student’,‘score:math’,‘88’

B.
put ‘student’,‘2015001’,‘score:math’,'88’

C.
put ‘student’,‘2015001’,‘88’

D.
put ‘student’,‘2015001’,‘math’,‘88’

11单选(2分)
NoSQL数据库的三大理论基石不包括

A.
ACID

B.
CAP

C.
最终一致性

D.
BASE

12单选(2分)
在设计词频统计的MapReduce程序时,对于文本行“hello bigdata hello hadoop”,经过map函数处理后直接输出的结果应该是(没有发生combine和merge操作)

A.
<“hello”,2>、<“bigdata”,1>和<“hadoop”,1>

B.
<“hello”,<1,1>>、<“bigdata”,1>和<“hadoop”,1>

C.
<“hello”,1,1>、<“bigdata”,1>和<“hadoop”,1>

D.
<“hello”,1>、<“hello”,1>、<“bigdata”,1>和<“hadoop”,1>

13单选(2分)
假设已经配置好PATH环境变量,启动hadoop的命令是

A.
start-hadoop.sh

B.
start-hdfs.sh

C.
start-fs.sh

D.
start-dfs.sh

14单选(2分)
下列说法错误的是

A.
HDFS HA可以解决单点故障问题

B.
HDFS Federation使得HDFS的命名服务能够水平扩展

C.
第二名称节点无法解决单点故障问题

D.
第二名称节点是热备份,而HDFS HA不是热备份

15单选(2分)
RDD操作包括转换(Transformation)和动作(Action)两种类型,下列RDD操作属于动作(Action)类型的是

A.
map

B.
join

C.
groupBy

D.
collect

16单选(2分)
下列关于Hive的说法正确的是

A.
Hive不支持索引

B.
Hive支持批量导入

C.
Hive的可扩展性差

D.
Hive支持频繁数据更新

17多选(3分)
大数据的特点包括

A.
数据种类繁多
B.
价值密度低
C.
处理速度快
D.
数据量大

18多选(3分)
下列适用于批处理计算的框架有哪些

A.
MapReduce

B.
Pregel

C.
Storm

D.
Spark

19多选(3分)
下列适用于流计算的框架有哪些

A.
Spark Streaming

B.
Dremel

C.
Pregel

D.
Storm

20多选(3分)
下列适用于图计算的框架有哪些

A.
Hama

B.
GraphX

C.
Pregel

D.
Impala

21多选(3分)
从技术架构上来看,物联网可以分为哪几层

A.
网络层
B.
应用层
C.
处理层
D.
感知层

22多选(3分)
HBase需要根据哪些属性来唯一地确定一个单元格(cell)中的某个版本数据

A.
列限定符
B.
行键
C.
时间戳
D.
列族

23多选(3分)
典型的NoSQL数据库的类型包括

A.
键值数据库
B.
列族数据库
C.
文档数据库
D.
图数据库

24多选(3分)
CAP是指

A.
持久性

B.
一致性
C.
可用性
D.
分区容忍性

25多选(3分)
云计算主要包括哪3种类型

A.
SaaS
B.
PaaS

C.
CaaS

D.
IaaS

26多选(3分)
以下属于流计算的应用有哪些

A.
购物网站的广告推荐

B.
根据过去一年购物记录判断用户的消费能力

C.
数据仓库数据批处理分析

D.
实时交通路线推荐

27多选(3分)
下列关于图计算说法正确的是

A.
传统的图计算框架通常表现出比较好的内存访问局部性

B.
当多个顶点的操作请求发生冲突时,Pregel采用局部有序和Handler来解决冲突
C.
Pregel是一种基于BSP模型实现的并行图处理系统
D.
在每个超步中,每个顶点会根据其接收消息的最大值和自身值比较,来确定自己状态作何种改变。

28多选(3分)
下列哪些是图计算框架Pregel的应用

A.
PageRank

B.
单源最短路径
C.
二分匹配
D.
流数据处理

29多选(3分)
关于Spark的特性说法正确的是

A.
Spark基于DAG的任务调度执行机制,要优于Hadoop MapReduce的迭代执行机制
B.
Spark的计算模式也属于MapReduce,但编程模型比Hadoop MapReduce更灵活
C.
Scala是Spark的主要编程语言,但Spark还支持Java、Python、R作为编程语言
D.
Spark提供了内存计算,可将中间结果放到内存中,对于迭代运算效率更高

30多选(3分)
BASE的基本含义是

A.
基本可用
B.
软状态

C.
持续性

D.
最终一致性

31判断(2分)
Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,是基于Java语言开发的,具有很好的跨平台特性。

A.错误

B.正确
32判断(2分)
HDFS分布式文件系统,是谷歌文件系统GFS的开源实现,而Hadoop MapReduce也是针对谷歌MapReduce的开源实现。

A.正确

B.错误
33判断(2分)
在分布式文件系统HDFS中,名称节点负责管理HDFS的元数据,这些元数据被保存在磁盘中。

A.正确

B.错误
34判断(2分)
HDFS可以高效存储大量的小文件。

A.正确

B.错误
35判断(2分)
FsImage用于维护文件系统树以及文件树中所有的文件和文件夹的元数据。

A.正确

B.错误
36判断(2分)
第二名称节点(Secondary NameNode)是HDFS架构中的一个组成部分,它是用来保存名称节点中对HDFS元数据信息的备份,并减少名称节点重启的时间。

A.正确

B.错误
37判断(2分)
HDFS采用了主从(Master/Slave)架构模型,一个HDFS集群包括一个名称节点和若干个数据节点。

A.正确

B.错误
38判断(2分)
NoSQL数据库的数据库模式灵活,可扩展性好,同时,所有NoSQL数据库都支持事务的ACID四性。

A.正确

B.错误
39判断(2分)
传统的关系数据库和NoSQL数据库各有所长,不存在一方完全取代另一方的问题,在很长的一段时期内,二者都会共同存在,满足不同应用的差异化需求。

A.正确

B.错误
40判断(2分)
MongoDB是一种图数据库,由C++语言编写的,其数据类型类似于JSON对象。

A.正确

B.错误
41判断(2分)
Hadoop的两大核心是HDFS和MapReduce,HDFS用来存储数据,MapReduce用来处理数据。

A.正确

B.错误
42判断(2分)
协同过滤是最早、最知名的推荐算法,可分为基于用户的协同过滤和基于物品的协同过滤。

A.正确

B.错误
43判断(2分)
Hive适合于实时交互式SQL查询,而Impala适合于长时间的批处理查询分析。

A.正确

B.错误

本答案来源于网络。

大数据技术及应用题库 单选题: 1从大量数据提取知识的过程通常称为(A)。 a。 。 数据挖掘 b。 。 人工智能 c. . 数据清洗 d。 。 数据仓库 2下列论据,能够支撑"大数据无所不能"的观点的是(A)。 A、互联网金融打破了传统的观念和行为 B、大数据存在泡沫 C、大数据具有非常高的成本 D、个人隐私泄露与信息安全担忧 3数据仓库的最终目的是(D)。 a。 。 收集业务需求 b。 . 建立数据仓库逻辑模型 c. . 开发数据仓库的应用分析 d. 。 为用户和业务部门提供决策支持 4大数据处理技术和传统的数据挖掘技术最大的区别是(A). a。 。 处理速度快(秒级定律) b. . 算法种类更多 c. . 精度更高 d. 。 更加智能化 5大数据的起源是(C)。 a。 . 金融 b. . 电信 c. 。 互联网 d。 . 公共管理 6大数据不是要教机器像人一样思考。相反,它是(A)。 a。 . 把数学算法运用到海量的数据上来预测事情发生的可能性 b。 . 被视为人工智能的一部 c。 . 被视为一种机器学习 d. . 预测与惩罚 7人与人之间沟通信息、传递信息的技术,这指的是(D)。 a. 。 感测技术 b。 。 微电子技术 c. 。 计算机技术 d。 . 通信技术 8数据清洗的方法不包括(D). a. . 缺失值处理 b。 . 噪声数据清除 c. 。 一致性检查 d. . 重复数据记录处理 9。 下列关于舍恩伯格对大数据特点的说法,错误的是(D) A。 数据规模大 B. 数据类型多样 C。 数据处理速度快 D. 数据价值密度高 10规模巨大且复杂,用现有的数据处理工具难以获取、整理、管理以及处理的数据,这 指的是(D)。 a. 。 富数据 b。 . 贫数据 c. 。 繁数据 d. 。 大数据 11大数据正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联 分析,从发现新知识、创造新价值、提升新能力的(D)。 a. 。 新一代信息技术 b。 。 新一代服务业态 c。 . 新一代技术平台 d. . 新一代信息技术和服务业态 12万维网之父是(C) A。 彼得·德鲁克 B. 舍恩伯格 C。 蒂姆·伯纳斯—李 D. 斯科特·布朗 13下列演示方式,不属于传统统计图方式的是(D)。 A、柱形图 B、饼状图 C、曲线图 D、网络图 14当前社会,最为突出的大数据环境是(A)。 A、互联网 B、物联网 C、综合国力 D、自然资源 15可以对大数据进行深度分析的工具是(C). A、浅层神经网络 B、Scala C、深度学习 D、MapReduce 16大数据的起源是(C)。 A、金融 B、电信 C、互联网 D、公共管理 17智慧城市的构建,不包含(C)。 A、数字城市 B、物联网 C、联网监控 D、云计算 18大数据的4V特征的Volume是指(D)。 A、价值密度低 B、处理速度快 C、数据类型繁多 D、数据体量巨大 19大数据的4V特征的Variety是指(C)。 A、价值密度低 B、处理速度快 C、数据类型繁多 D、数据体量巨大 20大数据的4V特征的Velocity是指(B)。 A、价值密度低 B、处理速度快 C、数据类型繁多 D、数据体量巨大 21下列关于大数据的分析理念的说法,错误的是(D). A、在数据基础上倾向于全体数据而不是抽样数据 B、在分析方法上更注重相关分析而不是因果分析 C、在分析效果上更追究效率而不是绝对精确 D、在数据规模上强调相对数据而不是绝对数据 22大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进 行(B)。 A、数据信息 B、专业化处理 C、速度处理 D、内容处理 23大数据的核心就是(B)。 A、告知与许可 B、预测 C、匿名化 D、规模化 24人与人之间沟通信息、传递信息的技术,这指的是(D)。 A、感测技术 B、微电子技术 C、计算机技术 D、通信技术 25大数据的最显著特征是(A)。 A、数据规模大 B、数据类型多样 C、数据处理速度快 D、数据价值密度高 28大数据正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联 分析,从发现新知识、创造新价值、提升新能力的(D)。 A、新一代信息技术 B、新一代服务业态 C、新一代技术平台 D、新一代信息技术和服务业态 29 下列关于普查的缺点的说法,正确的是(A)。 A. 工作量较大,容易导致调查内容有限、产生重复和遗漏现象 B. 误差不易被控制 C. 对样本的依赖性比较强 D。 评测结果不够稳定 30 下列关于聚类挖掘技术的说法,错误的是(B) A不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别 B需求同类数据的内容相似度尽可能小 C要求不同类数据
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值