Spark大数据分析与实战课后习题参考答案

最新推荐文章于 2024-04-13 23:30:50 发布

高校知识店铺合集汇总

最新推荐文章于 2024-04-13 23:30:50 发布

阅读量4.2k

点赞数

文章标签： spark 大数据 hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_63394128/article/details/125752350

版权

项目一：

一、选择题
DCCDAD
二、简答题
1、Hadoop MapReduce要求每个步骤间的数据序列化到磁盘，所以I/O成本很高，导致交互分析和迭代算法开销很大；Spark 提供了内存计算，把中间结果放到内存中，带来了更高的迭代运算效率。通过支持有向无环图（DAG）的分布式并行计算的编程框架，Spark 减少了迭代过程中数据需要写入磁盘的需求，提高了处理效率。
2、Local模式（单机模式）、Standalone模式、Spark on Mesos模式、Spark on YARN模式

项目二：

一、判断题
√√×√×
二、选择题
DDBDC

项目三：

一、判断题
√××××
二、选择题
DABC

项目四：

一、判断题
√×√√×
二、选择题
DDDA

项目五：

一、判断题
×××××
二、问答题
1、本教材图5-40中，对于输入数据Input，Spark从逻辑上生成RDD1和RDD2两个RDD，经过一系列“转换”操作，逻辑上生成了RDDn；但上述RDD并未真正生成，他们是逻辑上的数据集，Spark只是记录了RDD之间的生成和依赖关系。当RDDn要进行输出时（执行“行动操作”时），Spark才会根据RDD的依赖关系生成DAG（有向无环图），并从起点开始真正的计算。

2、窄依赖：一个RDD对它的父RDD，只有简单的一对一的依赖关系&#x

最低0.47元/天解锁文章

高校知识店铺合集汇总

关注

0
点赞
踩
13

收藏

觉得还不错? 一键收藏
打赏
1
评论
Spark大数据分析与实战课后习题参考答案

项目一：一、选择题DCCDAD二、简答题1、Hadoop MapReduce要求每个步骤间的数据序列化到磁盘，所以I/O成本很高，导致交互分析和迭代算法开销很大；Spark 提供了内存计算，把中间结果放到内存中，带来了更高的迭代运算效率。通过支持有向无环图（DAG）的分布式并行计算的编程框架，Spark 减少了迭代过程中数据需要写入磁盘的需求，提高了处理效率。2、Local模式（单机模式）、Standalone模式、Spark on Mesos模式、Spark on YARN模式项目二：一、判断题
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

高校知识店铺合集汇总 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。