大数据复习题

最新推荐文章于 2022-11-29 10:01:11 发布

倚恋

最新推荐文章于 2022-11-29 10:01:11 发布

阅读量1.6k

点赞数 2

分类专栏：复习资料

本文链接：https://blog.csdn.net/qq_43676724/article/details/107024902

版权

复习资料专栏收录该内容

3 篇文章 0 订阅

订阅专栏

单选题：

最基本和最流行的物联网数据类型是（）
• A自动化数据 • B位置数据
• C 状态数据 • D 控制数据
以下哪项内容不属于HDFS中划分的系统节点角色？
• A Client（客户端） • B GateWay（网关）
• C 名称节点(NameNode) • D 数据节点(DataNode)
Hadoop是由什么语言实现的？
• A C • B Python
• C Java • D perl
MapReduce是Hadoop的？
• A 核心计算框架 • B 核心存储框架
• C 分布式操作系统 • D 分布式处理系统
解析：MapReduce是Hadoop的核心计算框架，简称MR
Hadoop2.x默认数据块大小？
• A 32M • B 64M
• C 128M • D 256M
解析：Hadoop1.x默认64M，2.x默认128M
HDFS读数据时，客户端从哪里获得组成文件的数据块的位置列表？
• A DataNode • B Hadoop
• C HDFS • D NameNode
以下哪一个组件负责Hadoop协作服务？
• A HBase • B YARN
• C MapReduce • D Zookeeper
解析：Zookeeper负责分布环境下的协作
GFS是（）
• A Good File System • B Group File System
• C Google File System • D Groud Filter System
ERP（Enterprise Resource Planning）是（）
• A 消费资源计划 • B 企业资源规划
• C 企业路由规划 • D 消费路由计划
POS是（）
• A Pin Of Service • B Power On Self
• C Point Of Sale 销售点（终端） D Point Of Service
HDFS是（）
• A Hardware Filter System
• B Hadoop Distrubuted File System
• C High Definitely File System
• D Hadoop Defined File System
大数据的起源是（）
• A 金融 • B 互联网
• C 电信 • D 公共管理
大数据元年是（）2013被称为大数据元年：数据就是资源
• A 2010 • B 2011
• C 2012 • D 2013

数据存储单位从小到大排列顺序是（）
选项：
• A EB 、PB、YB、ZB • B PB 、EB、YB、ZB
• C PB 、EB、ZB、YB • D YB 、ZB、PB、ZB
解析：
数据存储单位大小，从小到大依次排序：
Byte->Kb->MB->GB->TB->PB->EB->ZB->YB。相邻单位之间的对应关系是1024。
1 KB = 1,024 Bytes　
1 MB = 1,024 KB
1 GB = 1,024 MB
1 TB = 1,024 GB
1 PB = 1,024 TB
1 EB = 1,024 PB
1 ZB = 1,024 EB
1 YB = 1,024 ZB

多选题：

Hadoop主要解决
• A 海量数据存储 • B 海量数据分析
• C 海量数据加载 • D 海量数据清洗
三次信息化浪潮的标志分别是（）、（）、（）
• A 微型计算机 • B 互联网
• C 云计算、大数据、物联网 • D 人工智能 • E 车联网
解析：
三次信息化浪潮的标志分别是微型计算机，解决信息处理的问题；互联网，解决信息传输的问题；云计算、大数据、物联网，解决信息爆炸的问题。
按照数据来源划分，大数据的主要来源有（）
• A 商业数据 • B 互联网数据
• C 车联网数据 • D 物联网数据 • E 移动互联网数据
解析：按照数据来源划分，大数据的三大主要来源有：商业数据、互联网数据和物联网数据
大数据采集过程中，针对数据质量问题按数据源的多少和所属层次，可以分为（）
• A 单数据源定义层 • B 单数据源实例层
• C 多数据源定义层 • D 多数据源实例层
解析：大数据采集过程中，针对数据质量问题按数据源的多少和所属层次，可以分为单数据源定义层、单数据源实例层、多数据源定义层、多数据源实例层
常用的系统日志的采集工具有（）
• A Scribe • B Flume
• C Chukwa • D Kafaka • E MQ
解析：常用的系统日志的采集工具有Hadoop Chukwa、Cloudera Flume、Faceback Scribe和LinkedIn Kafaka
互联网数据具有的特点（）
• A 大量化 • B 集中化
• C 多样化 • D 快速化 • E 实时化
解析：互联网数据具有的特点有大量化、多样化和快速化
大数据预处理的过程包括（）
• A 数据清洗 • B 数据集成
• C 数据转换 • D 数据规约 • E 数据集市
解析：大数据预处理的过程包括数据清洗、数据集成、数据转换和数据规约
：对网页内容的采集主要有（）
• A 网络爬虫 • B 网站公开API
• C DFI • D DPI
解析：对网页内容的采集主要有网络爬虫和网站公开API这两种方式
系统日志的应用场景有（）
• A 分析系统或者平台哪些功能是最受欢迎 • B 内容推荐
• C 系统审计 • D 自动化运维
解析：系统日志的应用场景有分析系统或者平台哪些功能是最受欢迎、内容推荐、系统审计和自动化运维
对网络流量的采集主要有（）
• A 网络爬虫 • B 网站公开API
• C DFI • D DPI
解析：对网络流量的采集主要有DPI和DFI两种方式
以下哪些是HDFS的特性？
• A 高容错 • B 高扩展
• C 高可靠 • D 高安全
Yarn的主要思想是将MRv1版JobTracker的哪两大功能拆分成两个独立的进程？
• A 系统管理 • B 资源管理
• C 任务调度 • D 安全管理
以下哪些是Hadoop的特点？
• A 低成本 • B 高可靠性
• C 高扩展性 • D 高效性
解析：
Hadoop特点：高可靠、高扩展、高效、低成本、高容错
互联网数据具有的特点
• A 大量化 • B 集中化
• C 多样化 • D 快速化 • E 实时化
对网页内容的采集主要有
• A 网络爬虫 • B 网站公开API
• C DFI • D DPI
大数据计算模式有（）
• A 图计算 • B 流计算
• C 查询分析计算 • D 并行计算 • E 批处理计算
大数据技术的目标，就是从这些大数据中（）
• A 挖掘信息 • B 判断趋势
• C 清洗数据 • D 提高效益 • E 规约数据
大数据的两大核心技术分别是（）
• A 虚拟化技术 • B 分布式存储
• C 并行计算 • D 分布式计算 • E 集中存储
大数据预处理的过程包括
• A 数据清洗 • B 数据集成
• C 数据转换 • D 数据规约 • E 数据集市
大数据采集过程中，针对数据质量问题按数据源的多少和所属层次，可以分为
• A 单数据源定义层 • B 单数据源实例层
• C 多数据源定义层 • D 多数据源实例层
传统的数据采集过程中，对数据处理的方式有
• A 数据湖 • B 分布式数据库
• C 并行数据仓库 • D 关系型数据库 • E 数据集市
按照数据来源划分，大数据的主要来源有
• A 商业数据 • B 互联网数据
• C 车联网数据 • D 物联网数据 • E 移动互联网数据
大数据的主要来源包括（）
• A 信息管理系统 • B 网络信息系统
• C 车联网系统你 • D 科学实验系统 • E 物联网系统
SNS的理论基础包括（）
• A 七度分隔理论
• B 六度空间理论
• C 大世界现象
• D 邓巴数字

判断题

hadoop已经发展了三个版本，第二、三个版本最大的特色是增加了YARN及NameNode HA？（√）
解析：Hadoop从第二个版本开始增加YARN组件及NameNode HA
Apache Hadoop是开源企业版本？（×）
解析：Apache Hadoop是开源社区版本
Sqoop是数据同步工具，主要用于传统数据库和Hadoop之间传输数据？（√）
解析：Sqoop是SQL-to-Hadoop的缩写，主要用于传统数据库和Hadoop之间传输数据。
HDFS会尽量使用离程序最远的副本来满足用户请求，这样可以减少总带宽消耗和读延时。（×）
解析：HDFS会尽量使用离程序最近的副本来满足用户请求，这样可以减少总带宽消耗和读延时。
NameNode周期性地从集群中的每个DataNode接受心跳包和块报告，收到心跳包说明该DataNode工作正常？（√）
物联网的核心和基础是互联网（√）
大数据的数据采集是在确定用户目标的基础上，针对该范围内所有结构化、半结构化和非结构化的数据的采集。（√）
大数据未来发展趋势，包括数据资源化（√）
解析：大数据未来发展趋势，包括数据资源化、数据科学和数据联盟的成立、大数据隐私和完全问题以及开源软件称为推动大数据发展的动力
互联网数据是现在最主要的数据来源渠道。（×）
解析：商业数据是现在最主要的数据来源渠道
Storm属于大数据计算模式批处理计算计算中的一种（×）
解析：Storm属于大数据计算模式流计算中的一种
Spark属于大数据计算模式批处理计算计算中的一种（√）
Hive属于大数据计算模式图计算中的一种（×）
解析：Hive属于大数据计算模式查询分析计算中的一种