大数据复习题

单选题:

  1. 最基本和最流行的物联网数据类型是()
    • A自动化数据 • B位置数据
    • C 状态数据 • D 控制数据

  2. 以下哪项内容不属于HDFS中划分的系统节点角色?
    • A Client(客户端) • B GateWay(网关)
    • C 名称节点(NameNode) • D 数据节点(DataNode)

  3. Hadoop是由什么语言实现的?
    • A C • B Python
    • C Java • D perl

  4. MapReduce是Hadoop的?
    • A 核心计算框架 • B 核心存储框架
    • C 分布式操作系统 • D 分布式处理系统
    解析:MapReduce是Hadoop的核心计算框架,简称MR

  5. Hadoop2.x默认数据块大小?
    • A 32M • B 64M
    • C 128M • D 256M
    解析:Hadoop1.x默认64M,2.x默认128M

  6. HDFS读数据时,客户端从哪里获得组成文件的数据块的位置列表?
    • A DataNode • B Hadoop
    • C HDFS • D NameNode

  7. 以下哪一个组件负责Hadoop协作服务?
    • A HBase • B YARN
    • C MapReduce • D Zookeeper
    解析:Zookeeper负责分布环境下的协作

  8. GFS是()
    • A Good File System • B Group File System
    • C Google File System • D Groud Filter System

  9. ERP(Enterprise Resource Planning)是()
    • A 消费资源计划 • B 企业资源规划
    • C 企业路由规划 • D 消费路由计划

  10. POS是()
    • A Pin Of Service • B Power On Self
    • C Point Of Sale 销售点(终端) D Point Of Service

  11. HDFS是()
    • A Hardware Filter System
    • B Hadoop Distrubuted File System
    • C High Definitely File System
    • D Hadoop Defined File System

  12. 大数据的起源是()
    • A 金融 • B 互联网
    • C 电信 • D 公共管理

  13. 大数据元年是()2013被称为大数据元年:数据就是资源
    • A 2010 • B 2011
    • C 2012 • D 2013

数据存储单位从小到大排列顺序是()
选项:
• A EB 、PB、YB、ZB • B PB 、EB、YB、ZB
• C PB 、EB、ZB、YB • D YB 、ZB、PB、ZB
解析:
数据存储单位大小,从小到大依次排序:
Byte->Kb->MB->GB->TB->PB->EB->ZB->YB。相邻单位之间的对应关系是1024。
1 KB = 1,024 Bytes 
1 MB = 1,024 KB
1 GB = 1,024 MB
1 TB = 1,024 GB
1 PB = 1,024 TB
1 EB = 1,024 PB
1 ZB = 1,024 EB
1 YB = 1,024 ZB

多选题:

  1. Hadoop主要解决
    • A 海量数据存储 • B 海量数据分析
    • C 海量数据加载 • D 海量数据清洗

  2. 三次信息化浪潮的标志分别是()、()、()
    • A 微型计算机 • B 互联网
    • C 云计算、大数据、物联网
    • D 人工智能 • E 车联网
    解析:
    三次信息化浪潮的标志分别是微型计算机,解决信息处理的问题;互联网,解决信息传输的问题;云计算、大数据、物联网,解决信息爆炸的问题。

  3. 按照数据来源划分,大数据的主要来源有()
    • A 商业数据 • B 互联网数据
    • C 车联网数据 • D 物联网数据 • E 移动互联网数据
    解析:按照数据来源划分,大数据的三大主要来源有:商业数据、互联网数据和物联网数据

  4. 大数据采集过程中,针对数据质量问题按数据源的多少和所属层次,可以分为()
    • A 单数据源定义层 • B 单数据源实例层
    • C 多数据源定义层 • D 多数据源实例层

    解析:大数据采集过程中,针对数据质量问题按数据源的多少和所属层次,可以分为单数据源定义层、单数据源实例层、多数据源定义层、多数据源实例层

  5. 常用的系统日志的采集工具有()
    • A Scribe • B Flume
    • C Chukwa • D Kafaka
    • E MQ
    解析:常用的系统日志的采集工具有Hadoop Chukwa、Cloudera Flume、Faceback Scribe和LinkedIn Kafaka

  6. 互联网数据具有的特点()
    • A 大量化 • B 集中化
    • C 多样化 • D 快速化 • E 实时化
    解析:互联网数据具有的特点有大量化、多样化和快速化

  7. 大数据预处理的过程包括()
    A 数据清洗 • B 数据集成
    • C 数据转换 • D 数据规约
    • E 数据集市
    解析:大数据预处理的过程包括数据清洗、数据集成、数据转换和数据规约

  8. :对网页内容的采集主要有()
    • A 网络爬虫 • B 网站公开API
    • C DFI • D DPI
    解析:对网页内容的采集主要有网络爬虫和网站公开API这两种方式

  9. 系统日志的应用场景有()
    • A 分析系统或者平台哪些功能是最受欢迎 • B 内容推荐
    • C 系统审计 • D 自动化运维

    解析:系统日志的应用场景有分析系统或者平台哪些功能是最受欢迎、内容推荐、系统审计和自动化运维

  10. 对网络流量的采集主要有()
    • A 网络爬虫 • B 网站公开API
    • C DFI • D DPI
    解析:对网络流量的采集主要有DPI和DFI两种方式

  11. 以下哪些是HDFS的特性?
    • A 高容错 • B 高扩展
    • C 高可靠
    • D 高安全

  12. Yarn的主要思想是将MRv1版JobTracker的哪两大功能拆分成两个独立的进程?
    • A 系统管理 • B 资源管理
    • C 任务调度
    • D 安全管理

  13. 以下哪些是Hadoop的特点?
    • A 低成本 • B 高可靠性
    • C 高扩展性 • D 高效性

    解析:
    Hadoop特点:高可靠、高扩展、高效、低成本、高容错

  14. 互联网数据具有的特点
    • A 大量化 • B 集中化
    • C 多样化 • D 快速化 • E 实时化

  15. 对网页内容的采集主要有
    • A 网络爬虫 • B 网站公开API
    • C DFI • D DPI

  16. 大数据计算模式有()
    A 图计算 • B 流计算
    • C 查询分析计算
    • D 并行计算 • E 批处理计算

  17. 大数据技术的目标,就是从这些大数据中()
    • A 挖掘信息 • B 判断趋势
    • C 清洗数据 • D 提高效益 • E 规约数据

  18. 大数据的两大核心技术分别是()
    • A 虚拟化技术 • B 分布式存储
    • C 并行计算 • D 分布式计算 • E 集中存储

  19. 大数据预处理的过程包括
    • A 数据清洗 • B 数据集成
    • C 数据转换 • D 数据规约
    • E 数据集市

  20. 大数据采集过程中,针对数据质量问题按数据源的多少和所属层次,可以分为
    • A 单数据源定义层 • B 单数据源实例层
    • C 多数据源定义层 • D 多数据源实例层

  21. 传统的数据采集过程中,对数据处理的方式有
    • A 数据湖 • B 分布式数据库
    • C 并行数据仓库 • D 关系型数据库 • E 数据集市

  22. 按照数据来源划分,大数据的主要来源有
    • A 商业数据 • B 互联网数据
    • C 车联网数据 • D 物联网数据 • E 移动互联网数据

  23. 大数据的主要来源包括()
    • A 信息管理系统 • B 网络信息系统
    • C 车联网系统你 • D 科学实验系统 • E 物联网系统

  24. SNS的理论基础包括()
    • A 七度分隔理论
    • B 六度空间理论
    • C 大世界现象
    • D 邓巴数字

判断题

  1. hadoop已经发展了三个版本,第二、三个版本最大的特色是增加了YARN及NameNode HA?(√)
    解析:Hadoop从第二个版本开始增加YARN组件及NameNode HA
  2. Apache Hadoop是开源企业版本?(×)
    解析:Apache Hadoop是开源社区版本
  3. Sqoop是数据同步工具,主要用于传统数据库和Hadoop之间传输数据?(√)
    解析:Sqoop是SQL-to-Hadoop的缩写,主要用于传统数据库和Hadoop之间传输数据。
  4. HDFS会尽量使用离程序最远的副本来满足用户请求,这样可以减少总带宽消耗和读延时。(×)
    解析:HDFS会尽量使用离程序最近的副本来满足用户请求,这样可以减少总带宽消耗和读延时。
  5. NameNode周期性地从集群中的每个DataNode接受心跳包和块报告,收到心跳包说明该DataNode工作正常?(√)
  6. 物联网的核心和基础是互联网(√)
  7. 大数据的数据采集是在确定用户目标的基础上,针对该范围内所有结构化、半结构化和非结构化的数据的采集。(√)
  8. 大数据未来发展趋势,包括数据资源化(√)
    解析:大数据未来发展趋势,包括数据资源化、数据科学和数据联盟的成立、大数据隐私和完全问题以及开源软件称为推动大数据发展的动力
  9. 互联网数据是现在最主要的数据来源渠道。(×)
    解析:商业数据是现在最主要的数据来源渠道
  10. Storm属于大数据计算模式批处理计算计算中的一种(×)
    解析:Storm属于大数据计算模式流计算中的一种
  11. Spark属于大数据计算模式批处理计算计算中的一种(√)
  12. Hive属于大数据计算模式图计算中的一种(×)
    解析:Hive属于大数据计算模式查询分析计算中的一种
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值