《大数据分析与计算》课后习题目录

汤羽 林迪 范爱华 吴薇薇

第 1 章 绪论

1.数据(data)、信息(information)、知识(knowledge)与价值(value)这四个词在信息科学中既相关联、又具有不同的含义。请举例说明四个概念的关联与区别。

2. 数据科学家的主要知识技能包括哪几方面?

3. 阐述大数据的四大基本特征?

4. 大数据计算与传统统计学方法的差别?

5. 大数据计算系统与传统数据库系统的区别?

第 2 章 大数据计算体系

1.阐述大数据计算系统涉及到的三个基本系统及其含义。

2. 大数据存储架构的构成,并用图展示说明。

3.美国国家标准学会把数据模型定义为三个层次,分别为哪三个层次,并阐述 每个层次的含义。

4. 关系型数据库面临的挑战有哪些?

5. 按照存储架构设计,NoSQL 数据库有哪四种分类?

6. 列举两种在大数据计算分析中主要用到的计算模型。

第 3 章 大数据标准与模式

1. 描述大数据参考架构主要角色

2. 阐述大数据标准体系中六个类别的标准。

3.根据数据规模、时延性、计算模型、系统结构、关键技术五个维度,对比离 线批处理计算、在线交互式计算、及大内存计算的区别。

第 4 章 数据采集方法

1. 什么是日志采集?日志采集的主要目的是什么?

2. 日志采集的主要过程是什么?传输协议有哪些?

3. 请简述网络爬虫的工作原理。

4.网络搜索的方法有几种?请简述每种网络搜索的原理,并比较不同搜索算法 的优缺点。

5. RESTful Web 是基于哪些资源进行定义的?

第 5 章 数据清晰与规约方法

1. 数据预处理的主要任务有哪些?

2.数据清洗技术按照解决问题的需求可以分为哪几类?请详细阐述每一类问题

3. 清洗数据缺失值的技术有哪些?请比较各种技术的优劣。

4. 数据规约技术有哪些?并详细阐述每种技术的特点。

5. 常用的数据清洗工具有哪些?请分析每一类工具的应用场景。

第 6 章 数据分析算法

1. 简述决策树的原理及过程。

2. 阐述 k-均值的算法原理。

3. 阐述 k-邻近的算法原理。

4. 描述 k-均值与 k-邻近算法的区别。

5. 简述 Adaboost 的计算过程。

第 7 章 文本读写技术

1. 读取文本常用的函数有哪些?

2. 如何将 csv 文件直接读取到一个 Python 的 DataFrame 对象里面?

3. 如何将 Python 内容写入文本文件中?

4. Python 中如何读取二进制文本?

5. Python 中如何与数据库进行连接?

第 8 章 数据处理技术

1.当两个数据集的索引全部或部分重叠时,它们的数据组合问题就不能用简单 的合并(merge)或连接(concatenation)运算来处理。用 python代码举例说明如何解决以上问题。

2. 下面的数据中有多行存在重复的数据。请只针对 k1 和 k2 列,进行去重。

3. 连续数据常常被离散化。假设有一组人员数据,希望将它们划分为不同的年 龄组:

ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32] 如果我们想要将这些数据划分为“18 到 25”、“26 到 35”、“35 到 60”以及 “60以上”。用 python代码实现以上分档需求,并设置每档的名称,将 labels选项设置为['Youth', 'YoungAdult', 'MiddleAged', 'Senior']。

4. 简述正则表达式的含义

第 9 章 数据分析技术

1. 用 matplotlib 工具包创建直方图。

2. 阐述 Dataframe 的定义。

3. 用 Scikit-Learn 工具包实现逻辑回归。

4. 用 Scikit-Learn 工具包实现 CART 决策树算法。

5. 用 Scikit-Learn 工具包实现朴素贝叶斯算法。

第 10 章 数据可视化技术

1. 简述 Matplotlib 支持哪些功能?

2. 简述 Mayavi2 有哪些特征?

3. 除了 matplotlib 和 Mayavi 以外,Python 中还可以采用哪些类库实现图表图 形的绘制?

4. 如何使用 Python 在一张图中绘制 2X2 的四幅图?

5. 如何在 python 中添加图例?

第 11 章 Hadoop 生态系统

1. Hadoop 集群中可以用几种模式进行运行?每种模式有哪些特点?

2. Hadoop 的核心配置是什么?拥有哪些配置文件?

3. 集群中的 Master 和 Slave 节点是如何组成?

4. 为什么 SSH 本地主机需要密码?如果在 SSH 中添加 key,是否还需要设置密 码?

5. 如何重启 Namenode?

第 12 章 MapReduce 计算模型

1. 简述 Map 包含哪些步骤?

2. 简述 Reduce 包含哪些步骤?

3. MapReduce 中排序发生在哪几个阶段?这些排序是否可以避免,为什么?

4. 编写 MapReduce 作业时,如何做到在 Reduce 阶段,先对 Key 排序,再对 Value 排序?

5.如何使用 MapReduce 实现两个表 join,可以考虑一下几种情况:(1)一个表 大,一个表小(可放到内存中);(2)两个表都是大表。

第 13 章 图并行计算框架

1. 为什么在 MapReduce 计算模型之外还需要图并行计算模型?图并行计算框架与 MapReduce 批处理模型的主要差别在哪里?

2. 图并行计算系统目前有三种技术方案:基于 BSP 模型的 Pregel 和 Hama,基于节点计算(vertex-program)的 GraphLab,以及图数据库 Neo4j 和 InfiniteGraph,试论述三种技术方案的差异。

3. 为什么 Pregel 的节点间通信必须被局限在超步之间的障碍期(barrier)进 行?不这样做会导致什么后果?

4. 在 BSP 模型中,消息发送和接收的 Combiner 机制可在发送节点实现,也可 以在接收节点实现。什么时候我们选择在发送节点实现 Combiner?什么时候选择在接收节点实现 Combiner?各自的目的是什么?

5. 节点通信中 Combiner 的使用是为了降低节点间网络通信开销,更有效地使 用网络资源。但是不是所有节点计算都适用 Combiner?使用 Combiner 时需遵循的一条准则是什么?

6. 参照图 12-18 的最大值算例,若将问题改为需要将最小值传播到每个项点, 列出传播过程的各个超步步骤。

第 14 章 交互式计算模式

1. 为什么说交互式计算模式(interactive analysis)是界于 MapReduce 批处理计算和大内存计算之间的一个折衷解决方案?它主要依靠什么技术实现?

2. 什么是列存储结构(column-based storage structure)?为什么列存储结 构的查询效率要远高于基于行存储结构(row-based storage structure)的关系型数据库?

3. Dremel 将嵌套数据结构在实际存储时映射成一维存储结构,在计算过程中常 常需要将内存中的一维存储结构恢复成原有的数据结构。Dremel 是通过什么方 法实现数据结构的无损表达(lossless representation)和高速组装(quickre-assembly)的?试简述之。

4. 根据第 14 章图 14-11 的 Dremel 查询树结构,说明为什么中间节点层 (intermediate sever)的层次不宜太多(比如多于两层)?

5. 从列存储结构和查询树并行模型的特点说明为什么交互式计算模式只适宜 于数据查询业务,而不适宜于数据增删操作。

第 15 章 流计算系统

1. 流数据处理(stream data processing)有哪两种基本模式?从系统吞吐率和时间延迟性看, 这两种模式各有什么特点?

2. Spark 的 micro-batch 模型 RDD (resilient distributed dataset)以 2 秒 为单位截取数据流构成一个个数据包。如果以小于 2 秒或大于 2 秒为单位截取数据流构成 RDD, 各有什么利弊?

3. 什么是 Spark 计算逻辑模型(抽象模型)Topology?什么是 Spark 计算物理 模型(计算架构)?计算逻辑模型是如何映射到实际计算架构上的?

4. 根据 5.3 节的 Acker 工作机制,说明为什么 Acker 收到一条 Ack 消息使 ack-val=0 时,就意味着该条 tuple 的处理结束?

5. 图 15-30 的 Acker 算例如果扩展为如下的 1 个 Spout + 4 个 Bolts 情形, ack_val 的初始值仍然为 0。列出计算步骤验证:在步骤三结束时,ack_val = 0。

第 16 章 内存计算模式

1. 分布式缓存系统的工作原理是什么?根据图16-3说明分布式缓存系统是如何大大提高系统访问速度的。

2. 分布式缓存系统有同步缓存(图 16-4)和异步缓存(图 16-5)两种模式, 试介绍它们各自的优缺点。

3. 什么是一致性哈希算法(Consistent Hashing Algorithm)?试举例说明一 致性哈希算法是如何解决扩容问题。

4. 与图 16-23 的读写分离数据库架构比较,图 16-24 的数据库集群架构解决了 什么问题?图 16-25 的混合分区架构又解决了什么问题?

5. RAMCloud 在 Master 节点内存中和 Backup 节点磁盘上存储有两套 Segment 体系。在进行内存清除提高内存使用率时,为何对 Master 内存和 Backup 磁盘要采用两种不同的清除机制(two-level Cleaning)?试解释说明这种不同的机制。

6. 图 16-56 描绘了 Spark 的双层调度模型,即 Spark 的调度包括需求层 (Application/Job/Stage/Task)和资源层(Worker/Executor/TaskThread)两 层。试根据图 16-56 说明 Spark 调度算法是如何调度分配下层的计算资源满足上

层的计算需求的。

第 17 章 基于医疗数据的临床决策分析应用——第 20 章 金融和经济数据的分析应用

  • 21
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值