- 博客(2)
- 资源 (1)
- 收藏
- 关注
原创 Spark之调优指南
Spark之系统调优指南我们写好的代码像是一些信息的有序组合,硬件资源就像是能量。我们就是想让信息去最大限度的利用好这些能量去达完成我们的目标。具体的我们要尽可能的去压榨CPU资源,减小网络传输,减少内存的浪费,避免磁盘IO带来的时间效率的低下。下面从几个维度去总结一些Spark的优化。以下为石杉老师课程笔记的整理:内存内存花费在哪里1、每个Java对象,都有一个对象头,会占用...
2019-02-19 11:20:55 348
原创 Spark之CacheManager运行流程
Spark之CacheManager运行流程CacheManager概述 CacheManager的功能是将RDD的数据进行持久化。当Task要针对一个RDD中的Partition进行计算时如果发现我们即将产生的RDD已经被CacheManager持久化了,那么我们可以直接拿到目标数据而无需再进行计算。具体来说,我们的计算过程发生在RDD的iterator()方法中。当我们要拿...
2019-02-16 19:57:04 413
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人