spark说明手册阅读笔记

最新推荐文章于 2024-05-04 07:19:45 发布

码海岛主

最新推荐文章于 2024-05-04 07:19:45 发布

阅读量204

点赞数

分类专栏：分布式、软件工程、matlab

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bloodfeast/article/details/77850033

版权

分布式、软件工程、matlab 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

Use method to avoid creating intermediate variables:

即把程序写成下列形式：

Sc.textfile().map().reduceBykey()

这样就不需要储存如map()返回值这样的中间向量。

transformation属于惰性方法，对于一个使用了transformation的RDD，只有当接下来要用这个被transformation处理过的RDD来进行action时，才能真正调用这个transformation操作

对于sparkRDD的三种聚合操作：

reduceByKey：仅仅只按照键值进行简单的加法

foldByKey：除了把相同键值的相加，还要加上一个初始值

aggregateByKey：把键值和对应数值聚合成一个集合

对于传统的mapreduce，由于每一次迭代都相当于一个独立的mapreduce job，所以每次迭代的结果都要被写回到硬盘。而对于spark，由于有跨集群的缓存，因此读取速度更快。

Spark的大致工作流程：

当一个RDD上触发了一次action操作，则SparkContext上的runJob函数被调用。该函数会将对应的SC提交到scheduler上，首先经过DAG scheduler，把本次工作划分为一个有向无环图，然后task scheduler按照该有向无环图，把每一步的任务提交到集群上。对于task scheduler，具体步骤是这样的：当它接收到一系列任务时，把这些任务根据优先度分配给各个处理器。一个处理器执行任务的流程如下：首先确认JAR和文件依赖，然后为所有需要用到之前处理器的文件依赖建立一个本地缓存，只有当这些依赖改变的时候，才需要从对应的处理器下载。然后解码并执行任务代码。

如何管理各个处理器：

本地模式：只有一个处理器，并和驱动一起运行在相同的JVM上。适合于小型的项目。

Standalone模式：由一个master和多个worker组成，当一项作业输入后，master会让workers唤起各自的executor来处理这一项作业。

Mesos模式：一个广义上的集群资源管理器。以此能在不同程序之间共享资源。

YARN模式：hadoop的资源管理器。每个spark程序都有与之对应的yarn程序，每个处理器也有与之对应的yarn容器。

Mesos和Yarn集群管理器要优于standalone管理器。前两者会考虑到集群上运行的其他程序，而standalone只能使用集群分配的固定资源。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄12年

113
原创

30
点赞

121
收藏

24
粉丝

关注

私信

热门文章

分类专栏

最新评论

C++静态成员变量的定义与初始化注意事项
码海岛主: 取地址不会报错的，这个操作符只要是对变量肯定生效，因为一个变量初始化之后，必定会对应一个存储空间
C++静态成员变量的定义与初始化注意事项
爱收藏的白鸽: 如果说在主函数中对b取地址，会报错吗？我的意思是如果一个静态成员变量是在局外进行初始化的，然后在主函数中对它取地址，会报错吗？
UE4：用C++的方式在UE中添加一个Sequence蓝图函数库
Fad81: 之后的步骤呢？
C++静态成员变量的定义与初始化注意事项
码海岛主: 对的，如果一个成员被定义，意味着系统要给它分配内存了，所以如果放在头文件中就会被多次定义，导致多次分配内存，这显然和静态成员的概念相违背
C++静态成员变量的定义与初始化注意事项
吉安娜.普罗德摩尔: 为了避免复杂链接导致的bug，C++要求每个对象（个人认为此处的object不局限于类对象，还包括int这些）都有唯一的定义，不然编译器不知道该把这个对象放在哪个内存地址。如果在A里面初始化静态成员，那么实例化每个类A的对象时都相当于定义了一次这个静态成员，这就违反了上述规则楼主能解释再深入解释下这段话的意思吗？没听懂。我能理解的是，类在实例化对象之前，普通的数据成员是无法被获取的，只有实例化的时候，类的数据成员才被真正定义（即占有内存空间）。而static数据成员由于是归属于类的，而不是某一个特定对象，所以不应该在类被实例化的时候才分配内存。即在include文件中，static数据成员是不算定义的，如果算是定义，那么该头文件被多次包含的时候，就会出现static数据成员重复定义的错误。所以static数据成员应该在它处进行单独定义并赋值。不知道我这样理解的对不对。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。