云计算与大数据课后题库
第一章 前言部分
1.下面哪个案例最能说明基于大数据的分析能够发挥神奇的预测功能?(C)
A. 芝麻信用评级 B. 卫报新闻令英国从伊拉克撤军
C. 谷歌流感趋势 D. 沃尔玛超市“啤酒与尿不湿”促销
2.我国将“大数据”一词首次写入总理给全国人大提交的《政府工作报告》是在哪一年?(B)
A. 2013年 B. 2014年 C. 2015年 D. 2016年
3. 我国每年在何地举办一次中国国际大数据产业博览会? (A)
A. 贵阳 B. 北京 C. 上海 D. 西安
4. 2016年,我国首批开设数据科学与大数据技术专业的高校有几所?(C)
A. 1 B. 2 C. 3 D.4
5. Google主要是基于哪些方法实现了对流感趋势的预测?(ABD)
A. 谷歌设计了关于流感的关键词
B. 收集用户在网络中搜索流感关键词的统计数据和用户所在的地区
C. 从各地卫生官员处收集流感人数的统计数据
D. 认为搜索流感信息的人数与实际患病人数之间存在密切关联
6. 基于位置的服务(Location Based Services,LBS),是利用各类型的定位技术来获取定位设备当前的所在位置,通过移动互联网向定位设备提供信息资源和基础服务。下列哪些应用与LBS有关? (ABCD)
A. 在线地图预测城市道路交通流量
B. 旅游景点的智慧导游,自动为游客提供讲解
C. 向用户推荐所在位置附近的餐饮店家
D. 大型商场通过手机向顾客提供的室内导购服务
-
1.1什么是大数据
1.1980年,著名的未来学家阿尔文托夫勒在其著作中将(D)称为“第三次浪潮的华彩乐章”
A. 人工智能 B. 互联网 C. 物联网 D. 大数据
2. 2001年梅塔集团在其发布的研究报告中指出数据增长的挑战和机遇有三个方向,分别是数据容量、处理速度和(C)
A. 数据管理 B. 数据传输 C. 数据种类 D. 数据存储
3. 关于大数据的价值,下列论断中正确的是(B)
A. 大数据的体量大,价值密度也高
B. 大数据的体量大,但价值密度低
C. 大数据的价值相比于它的体量毫无意义
D. 大数据的价值与它的体量成正比,数据量越大,价值越高
4. 2012年《纽约时报》发文指出,大数据时代已经来临,决策将日益基于(D)而作出,而并非基于经验和直觉。
A. 市场垄断 B. 精准营销 C. 有效管理 D. 数据和分析
5. 2012年,美国奥巴马政府在白宫网站发布《大数据研究和发展倡议》,提出通过收集、处理庞大而复杂的数据资料信息,获得知识和洞见,加快科学、工程领域的创新步伐,强化美国国土安全,转变教育和学习模式,指出了大数据在下列哪些方面的巨大作用? (ABCD)
A. 科学研究 B. 国家安全 C. 教育 D. 工程领域
6.大数据的“4V”特征中不包括(CD)
A. 速度 B. 数据类型 C. 有效性 D. 易受攻击性
7. 近年来, “天猫双十一”成交额达到100亿的时间越来越短,说明电子商务对大数据处理提出了哪些方面的要求? (ABC)
A. 处理速度必须非常快
B. 能够快速传输海量数据
C. 能够快速存储海量数据
D. 能够保证交易数据的足够安全
-
1.2大数据的来源与格式
1. 结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。下列的数据中哪个不是结构化数据。(B)
A. 学生的学籍表 B. 系统日志文件 C. 电商的月销售记录单 D. 车间生产计划表
解析: 系统日志属于半结构化数据
2. JSON文件是典型的半结构化数据,它输出数据的形式是(D)
A. 有序数对 B. 标记语言 C. 二维表格 D. 键值对
3. 物联网,指的是将各种信息传感设备,如射频识别(RFID)装置、红外感应器、全球定位系统、激光扫描器等种种装置与互联网结合起来而形成的一个巨大网络。下列的哪种场景不属于典型的物联网应用? (C)
A. 远程智慧医疗 B. ZigBee无线路灯照明节能环保技术
C. 无线移动通讯 D. 智能交通信号灯控制
4. “来自行业分析人士的评论称,128GB SSD过去两个月在中国市场的价格下跌了10%,未来形势依然不够看好。随着成本更低的PLC闪存初露端倪,主控技术的成熟,PLC闪存的量产,未来的PLC闪存SSD的价格将大幅度降低,价格进一步向HDD机械硬盘靠拢”这一报道与下面的哪一个定律预言情况是大致吻合的。(B)
A. 吉尔德定律 B. 摩尔定律 C. 麦特卡夫定律 D. 维克托预言
5. 反映网络时代规律的麦特卡夫定律主要内容是(D)
A. 计算机的计算功能每18个月翻一番 B. 性能相同的计算机价格将不断下降
C. 网络的带宽每6个月翻一番 D. 网络的价值与用户数量的平方成正比
6. 泛互联网的主要形式包括(ABC)
A. 车联网 B. 移动互联网 C. 物联网
7. 结构化数据的数据以行为单位,一行数据表示一个实体的信息,每一列数据的属性是相同的。例如在产品学生班级名单中,每个学生就是一个实体,它的信息就是一行数据,学号这一列就是一个属性,请结合实际情况,指出学号这个属性必须满足以下哪些性质? (ABC)
A. 长度必须相同 B. 数据类型必须相同
C. 不同学生的学号必须不同 D. 同一个班级学生的学号必须连续
解析: 同一个班的学号不一定非得要连续,这不是必须的。
8. 非结构化数据主要包括以下的哪些形式?(ABCD)
A. 视频 B. 语音 C. 图形图像 D. 文本
第一章第二节:大数据的整体架构与关键技术
1.大数据的处理流程可分为数据采集、导入与预处理、(B)、分析处理、数据呈现五个环节
A. 数据清洗 B. 数据存储 C. ETL D. 数据
2. 据统计,数据科学家花费时间最多的大数据处理环节是(A)
A. 数据清洗 B. 数据收集 C. 建立训练集 D. 测试算法
3. 数据抽取可分为增量抽取和(B)
A. 全局抽取 B. 全量抽取 C. 整体抽取 D. 部分抽取
4. 南丁格尔在克里米亚战争期间用玫瑰图主要的目的是分析什么问题?(D)
A. 士兵死亡的时间 B. 士兵死亡的地点
C. 士兵死亡的人数 D. 士兵死亡的原因
5. 下列工具中最适合对在线大数据进行并行计算,实时分析的是(C)
A. Pig B. Hadoop MapReduce C. Spark D. HDFS
6. 下列哪些选项可以作为大数据系统的数据源(ABCD)
A. 系统日志 B. 网页访问数据 C. RDBMS D. NoSQL
7. 大数据的技术架构可分为应用层、分析层和(BD)
A. 采集层 B. 管理层 C. 导入层 D. 基础层
8. 下列问题中属于数据预处理环节要解决的是(ABC)
A. 缺失值处理 B. 重复值处理 C. 数据的转化 D. 数据的分析挖掘
第一章第三节 :大数据的挑战与未来
1. 2013年6月,前中情局(CIA)职员爱德华·斯诺登将两份棱镜门事件绝密资料交给英国《卫报》和美国《华盛顿邮报》,两家报纸2013年6月6日报道,美国国家安全局(NSA)和联邦调查局(FBI)于2007年启动了一个代号为"棱镜"的秘密监控项目,直接进入美国网际网路公司的中心服务器里挖掘数据、收集情报,包括微软、雅虎、谷歌、苹果等在内的9家国际网络巨头皆参与其中。此次事件说明(A)对大数据的安全使用起到了决定性的作用。
A. 国家和政府 B. 安全技术 C. 法律 D. 行业规则
2. Cambridge Analytica能够短时间内大量的获取个人的信息,在传播过程中起重要作用的是(B)
A. 政府资助 B. 社交网络 C. 企业广告 D. 网站推广
3. 有证据表明,Cambridge Analytica利用大量获取的个人的信息,主要目的是(A)
A. 政治操作 B. 行业服务 C. 技术推广 D. 精准营销
4. 近年来,美国政府不遗余力地打压华为,试图限制甚至封杀华为的5G设备和技术在世界范围内的推广,背后的目的自然是深层次的政治原因。这也说明下列的哪个因素对大数据的安全起到重要作用(D)
A. 大数据的隐私保护技术 B. 国家关于大数据安全的政策与法规
C. 大数据的存储安全 D. 大数据的基础设施安全
5.加强大数据的安全与隐私的保护措施主要包括以下哪些方面?(ABCD)
A. 提高用户的隐私保护意识和信息安全素养。
B. 建立健全大数据隐私和安全方面的法律法规。
C. 加强信息化建设的规划和和标准,引导企业给予个人更多的个人数据控制权。实施数据隐私等级分类
D. 加强数据安全技术的研发与应用
6. 以下哪些应用可能和用户画像有关?(ABD)
A. 个性化推荐 B. 行业与用户报告 C. 人脸识别 D. 信贷消费预警
7. 数据治理要解决大数据平台哪些方面的问题? (ABCD)
A. 数据不可知 B. 数据不可控 C. 数据不可取 D.数据不可联
第二章
-
2.1大数据的采集
1. 大数据的三大来源是商业数据、互联网数据和(A)
A. 物联网数据 B. 社交网络 C. 企业内部数据 D.移动通讯数据
2. 物联网获得数据的主要方式不包括(D)
A. RFID B.各类传感器、感应器 C. GPS D.社交网络
3. 阿里巴巴通用计算平台提供的一种快速、完全托管的 PB 级数据仓库解决方案现在名称为(B)
A. RDBMS B. Maxcompute C. MapReduce D. NoSQL
4. Windows 10系统的日志系统可在控制面板中的什么项目中可以看到?(A)
A. 事件查看器 B. 本地安全策略 C. 组件服务 D. 资源监视器
5. Flume日志系统当节点出现故障时,提供了三种级别的可靠性保证,其中最强的是(C)
A. Best effort B. Store on failure C. end-to-end D.三种一样强
6. Scribe是Facebook公司用C/C++语言开发的开源日志系统,下列关于它的叙述正确的是(BCD)
A. 集中式收集,分布式处理
B. 当中央存储系统出现问题时,Scribe可以把日志暂存到本地
C. 分布式收集,集中统一处理
D. 各个数据源须通过thrift向scribe传输数据
7. Chukwa中的agents(代理)负责采集最原始的数据,并发送给 collectors(收集器),collectors 负责收集 agents 收送来的数据,并定时写入集群中。下列关于它的叙述中正确的是(AD)
A. 在每个数据的产生端host,Chukwa 使用一个Agent来采集它感兴趣的数据
B. 每一个Agent都对应一个单独的collectors用于收集Agent采集的数据
C. Chukwa 是一个秒级的错误监控系统,能做到实时错误监控。
D. Chukwa包含了一个强大和灵活的工具集
2.2大数据预处理
1.数据预处理包括数据清洗、数据集成、数据变换和(B)
A. 数据规范化 B. 数据归约 C. 数据离散化 D. 数据压缩
2.在一个学生学籍表中,下列哪个属性属于名义型数据? (C)
A. 学号 B. 年龄 C. 性别 D. 姓名
3.异常值处理主要包括缺失值、重复值、噪声数据和(B)
A. 异常点 B. 离群点 C. 错误点 D. 奇异点
4.下面9个数:3,17,9,18,21,36,41,23,52如果分成三组,每组三个,按照像箱中位数平滑方法,得到的第三组数为:(A)
A. 41,41,41 B. 36,36,36 C. 43,43,43 D. 21,21,21
5.数据集成的难点在于数据的异构性,异构性又主要是因为数据源和(D)的不同造成的.
A. 数据的存储形式 B. 数据的表达形式 C. 数据语义 D. 数据模型
6.如果我们需要在学生的成绩表中根据学生的考试成绩,将其划分为:优秀、良好、合格、不及格四个等级,这个操作属于数据变换中的(A)。
A. 数据泛化 B. 数据规范化 C. 数据聚集 D. 数据标准化
7.在搜集市场上主要电脑产品的数据时,共收集到2000余件产品品关于CPU型号、主频、核心/线程数、内存容量、内存类型、硬盘类型、硬盘容量、显示屏尺寸等等,共70余个特征的数据,现在每一个品牌中选择最新上市的3件产品作为代表,选取它们所有的70余个特征的数据,从而使数据的数量大为减少,这在数据预处理中称为(C)
A. 数据压缩 B. 特征归约 C. 样本归约 D. 属性归约
8.数据集成的主要形式有 (ACD)
A. 中介者模式 B. 联邦数据库 C. 分布式数据库 D. 数据仓库
9.缺失值可以用下列哪些数值填充?(ABCD)
A. 均值 B. 中位数 C. 插补 D. 随机选取的样本值
第三章 大数据分析概述
1.大数据分析是指用科学分析、挖掘和(C)的方法对收集来的大量数据进行分析、研究和概括总结。
A. 预处理 B. 统计分析 C. 展现 D. 机器学习
2. 大数据分析的基本方法包括预测性方法、数据挖掘算法、语义引擎、数据质量和数据管理、(D)等方法
A. 回归分析 B. 分类分析 C. 聚类分析 D. 可视化分析
3.沃尔玛超市关于“啤酒和纸尿裤”的案例,主要采用的是数据挖掘中的哪一类算法?(A)
A. 关联规则 B. 聚类分析 C. 分类分析 D. 可视化分析
4. 数据质量管理分为人工比对、(B)、统计分析
A. 数学比对 B. 程序比对 C. 自动比对 D. 抽样比对
5. 机器学习可分为(ACD)
A. 强化学习 B. 深度学习 C. 有监督学习 D. 无监督学习
6. 通过对客户在某电子商务平台上的消费额度、购买商品的种类、浏览记录等数据判断一位他是否会购买某种商品,可用下列哪些算法实现(BCD)
A. ARIMA算法 B. 神经网络 C. 决策树分析 D. Logistics回归
7. 分词技术可以用于下列哪些领域?(ABCD)
A. 自动翻译 B. 情感分析 C. 语义引擎 D. 论文查重
第四章 大数据可视化
1. 在人类的各项感官中,信息处理带宽最大的是(B)。
A. 听觉 B. 视觉 C. 触觉 D. 嗅觉
2.数据可视化的作用包括:观测和跟踪数据、分析数据、辅助理解数据和(C)
A. 统计数据 B. 转换数据格式 C. 增强数据吸引力 D. 展示数据
3. 数据可视化的发展阶段为科学可视化、(A)、数据可视化
A. 信息可视化 B. 计算可视化 C.分析可视化 D.文本可视化
4.数据可视化的流程为分析、过滤、(B)和绘制
A. 数据预处理 B. 可视映射 C. 可视编码 D. 可视分析
5.数据可视化的过程中需要设计可视化的内容有(ABCD)
A. 原始数据 B. 指标 C. 数据关系 D. 背景数据
6.下列数据属于时间数据的有(ABC)
A. 天气预报 B. 股票实时成交数据 C. 网页日志 D. 学生学籍数据
7. 用于表示社交网络可视化工具有(BC)
A. 柱形图 B. 有向图 C. 无向图 D. 扇形图
8.常用于文本分析的图有(ACD)
A. 词云图 B. 折线图 C. 新闻图 D. 短语网络
第五章 Hadoop概论
1. 下面关于Hadoop的叙述中正确的是(B)
A. Hadoop是一个分布式的数据库系统
B. Hadoop是一个分布式计算框架
C. Hadoop是一个Apache基金会推出的云计算商业产品
D. Hadoop是一个用于机器学习的大数据处理高级语言
2. Hadoop中的分布式文件系统是(C)
A. ZooKeeper B. Pig C. HDFS D. MapReduce
3. Hadoop中的分布式数据库系统是(A)
A. HBase B. Yarn C. Hive D. Flume
4. 在HDFS中数据被分割成块存储,默认的块的大小有如下的(C)
A. 512M B. 1024M C. 64MB D. 56M
5. Hadoop项目源于雅虎公司的一个提升项目可扩展性的工作
对 错
解析: 源于Apache基金会的项目
6. 在Hadoop中数据的存储是分块、多备份的,单个节点出现故障不会影响系统的正常运行。
对 错
7. MapReduce在Hadoop中的作用是将一个任务分解成多个小任务,使它们在不同的节点上同步进行。
对 错
8. Hive是基于Hadoop中的数据库工具
对 错
解析: Hive是基于Hadoop的数据仓库工具
第六章 HDFS概论
1. HDFS系统中一个文件块Block默认的副本个数为(D)
A. 2 B. 5 C. 4 D. 3
2. 在HDFS中,下列选项中(B)不属于元数据包含的信息
A. 名称空间 B. 数据内容 C. 文件块到DataNode的映射 D. 文件到文件块的映射
3. 在HDFS中,元数据存储在(A)中
A. NameNode B. DataNode C. Client D. Switch
4. HDFS是基于(B)语言开发,并提供了这种语言的客户端编程接口
A. C++ B. Java C. Python D. C
5.HDFS在进行文件写操作时,被划分的最小单位是(C)
A. 1TB B. 128M C. Package(64KB) D. Block(64MB)
6.根据HDFS系统的原理,它不适合处理下列哪些种类的数据(BD)
A. 高吞吐量的日志数据 B. 满足低延迟要求的在线数据
C. 海量的离线数据 D. 大量的小文件构成的数据
7. 名称节点NameNode负责管理分布式文件系统的命名空间Namespace,保存了两个核心的数据结构,分别是(BC)
A. FsLog B. FsImage C. EditLog D. EditImage
第七章 MapReduce概论
1. MapReduce在HDFS的基础上实现了任务的分发、跟踪、执行和(A)等工作,并收集结果。
A. 计算 B. 传输 C. 复制 D. 删除
2.MapReduce实质上是一个(C)
A. 适用于大数据处理的高级语言 B. 分布式存储系统
C. 并行编程计算模型 D. 数据仓库工具
3.一个MapReduce程序被统称为一个(B)
A. Programme B. Job C. Shuffle D. Task
4. MapReduce体系结构主要由四个部分(实体)组成,分别是HDFS,Client,JobTracker和(B)
A. NameNode B. TaskTracker C. TaskSchedule D. DataNode
5.TaskTracker处理的数据集是以数据的切片(split)为单位,其大小为(A)
A. 用户设定 B. 64K C. 1M D. 64M
6.JobTracker在分配各节点的任务时,原则是(C)
A. 随机指定 B. 平均分配给所有节点
C. 就近原则,根据数据切片的位置分配任务 D. 需要用户自己指定
7.MapReduce中每个任务节点上都会执行Map任务,也都会执行Reduce任务。
对 错
解析: 每个任务节点都会执行Map任务,但是执行Reduce任务的节点个数由用户指定,不一定每个节点都会执行。
8. 用户在Reduce过程中有没有定义Combiner对于最终结果没有影响。
对 错
解析: 只影响中间结果,不影响最终结果。
第八章
8.1 NoSQL技术介绍
1. 数据存储技术的发展分为人工管理阶段、文件系统阶段、数据库阶段和(C)
A. 云存储阶段 B. 关系型数据库阶段
C. 分布式文件系统阶段 D. NoSQL数据库阶段
2. 下列不属于数据库系统的优点的是(A)
A. 高冗余性 B. 共享性好
C. 容易实现安全控制 D. 数据和程序的独立性高
3. 数据库的模型主要分为层次型数据库、网状型数据库、关系型数据库和(A)
A. NoSQL B. Oracle RDBMS C. SQL Server D. My SQL
4.如果建立一个人口信息管理的关系型数据库,每个公民都是一个(B)
A. 域 B. 元组 C. 字段 D. 主码
5. 如果建立一个人口信息管理的关系型数据库,则每个公民的下列信息可以作为主码的是(D)
A. 电话号码 B. 姓名 C. 住址 D. 身份证号码
6. Web2.0网站系统中,用户A看到的内容和用户B看到同一网页内容更新不一致是可以容忍的。这个特点主要用于(B)
A. 回归 B. 个性化推荐 C. 聚类分析 D. 关联分析
7.非关系型数据库中,数据表的每一条记录的属性和格式可以不同。
对 错
8. CAP理论是指分布式系统必须同时满足强一致性、可用性和分区容忍性,所有这三点需求。
对 错
解析: 只需满足两个就可以
8.2 NoSQL的种类
1. 文档存储数据库中,处理数据的单元是(A)
A. 文档 B. 记录 C. 属性 D. 表
2. 在图形存储数据库中,数据的查询就是(C)
A. 图的分解 B. 图的编辑 C. 图的遍历 D. 图的创建
3. 在图形存储数据库中,路径是指(B)
A. 由起始节点和终止节点之间的实体(节点和关系)构成的集合
B. 由起始节点和终止节点之间的实体(节点和关系)构成的有序组合
C. 由起始节点和终止节点之间的边构成的有序组合
D. 由起始节点和终止节点之间的节点构成的有序组合
4.非结构化数据库主要分为列存储、文档存储、图形存储和(B)四类
A. 分布存储 B. 键值存储 C. 集中存储 D. 行存储
5. 下列数据库中属于图形存储数据库的是(D)
A. HBase B. Cassandra C. MongoDB D. Neo4j
6. 和行存储数据库相比,下列属于列存储数据库主要优势的是(C)
A. 支持事务一致性 B. 支持的数据类型丰富
C. 自动索引化,减少查询计算量 D. 减少存储空间
7.在图形存储数据库中,属性(Property)就是一个键值对(Key/Value Pair),每个节点或关系只能有一个属性
对 错
解析:可以有一个或多个属性
8.在图形存储数据库中,关系对应图中的边,也属于一种实体。
对 错
第九章 Spark概论
1. 下列叙述中不属于内存计算优点的是(D)
A. 读写速度比硬盘大大增快。
B. 内存中数据的重用最大化,减少了大量中间结果的IO操作。
C. 可以通过统一地址空间的方法实现分布式共享内存。
D. 价格比硬盘相对低廉,经济性好。
2.下列模块中不属于Spark高层模块的是 (C)
A. Spark Streaming B. SparkSQL C. Spark Core D. GraphX
3. 下列关于内存计算的叙述中正确的是(B)
A. 内存计算SPARK独有的技术,在关系型数据库管理系统中不会使用。
B.内存计算使用大量RAM来处理和分析数据,不需要连续读写基于磁盘数据库上的数据。
C. 内存计算过程可以把数据持久化到内存中。
D. 内存计算可以不用重新计算就可以恢复曾经计算过的数据。
4.Spark是用Scala语言实现的,下列属于Scala语言特点的有(ABCD)
A. 可伸缩性和可扩展性
B. 支持多范式编程
C. 提供快速有效的序列化工具
D. 含有丰富分布式通信模型
5. RDD是spark的核心数据结构,下列关于它的叙述正确的是 (BCD)
A. RDD作为核心数据模型,分布在工作节点上
B. RDD中的一个分区对应一个task
C. Transformation算子的输入和输出一定都是RDD
D. Action算子的输入和输出一定都是RDD
6.Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时批数据的处理。
对 错
解析:应该是实时流数据的处理
7.在GraphX中,图的基础类为Graph,它包含两个RDD:一个为边RDD,另一个为顶点RDD。
对 错
8. Spark SQL的实质就是Hive on Spark。
对 错
解析: Shark的实质才是Hive on Spark