spark
ihoujie
这个作者很懒,什么都没留下…
展开
-
有向无环图DAG
有向无环图DAG是图论中的概念。算法中有时称有向无环图为DAG ( Directed Acyclic Graph)。所谓有向无环图是指:任意一条边有方向,且不存在环路的图。spark里面有这个东西,做个笔记。原创 2016-02-19 09:55:03 · 1121 阅读 · 0 评论 -
Spark上手程序
I find a good blog about first program in Spark.http://pl.postech.ac.kr/~maidinh/blog/?p=46我验证了Scala的部门代码,我发现build jar包的过程变得非常慢,不停地从网上下载包,不知道是不是第一次建包造成的。references:[1]http://pl.postech.a转载 2016-06-02 22:38:24 · 337 阅读 · 0 评论 -
spark's deploy mode
Two deploy mode: client and cluster.† A common deployment strategy is to submit your application from a gateway machine that is physically co-located with your worker machines (e.g. Master node in原创 2016-06-02 19:18:07 · 2707 阅读 · 0 评论 -
spark集群内存不足可以采用的一些措施
如上图所示,当前的spark程序把所有的完全数据缓存在内存中,使用rdd.cache或者rdd.persist(MEMORY_ONLY)完成。但是,如果集群内存不足以存入所有的数据的话,rdd读入后不要做任何persist就好了,这样每次迭代计算都要从磁盘中读入数据并计算得到结果,可以节省缓存数据的内存,当然这是以浪费时间为代价。这样使用的spark相当于在使用mapreduce计算,不能发挥原创 2016-04-16 22:40:57 · 4903 阅读 · 0 评论 -
spark中的task 分割
spark的思想就是把一个巨大的任务通过网络分配给多个机器去执行,然后从多个机器返回计算结果并整合完成用户所需要的计算。这里有一个tradeoff的问题,每个task的任务分配并不是越大越好,也不是越小越好,是根据计算量和节点的计算能力平衡的结果。一个合理的task任务分配可以达到最快的计算速度。原创 2016-04-11 20:26:37 · 1332 阅读 · 0 评论 -
spark中的rdd的持久化
rdd的全称为Resilient Distributed Datasets(弹性分布式数据集)rdd的操作有两种transfrom和action。transfrom并不引发真正的rdd计算,action才会引发真正的rdd计算。rdd的持久化是便于rdd计算的重复使用。举例如下:rdd的持久化操作有cache()和presist()函数这两种方式。原创 2016-04-13 16:55:13 · 5623 阅读 · 1 评论 -
RDD中cache和persist的区别
RDD中cache和persist的区别通过观察RDD.scala源代码即可知道cache和persist的区别:def persist (newLevel: StorageLevel): this.type = {if (storageLevel != StorageLevel.NONE && newLevel != storageLevel)转载 2016-04-13 16:26:26 · 498 阅读 · 0 评论 -
spark中的共享参量函数
在使用spark的过程中,我们会发现有些参量需要传递给所有的executor或者task。spark有封装好的参数帮助我们实现这个需求。broadcast(value)¶Broadcast a read-only variable to the cluster, returning a L{Broadcast} object for reading it in distribu原创 2016-04-10 23:05:43 · 520 阅读 · 0 评论 -
RDD.glom的用法
官方文档:glom()Return an RDD created by coalescing all elements within each partition into a list.>>> rdd = sc.parallelize([1, 2, 3, 4], 2)>>> sorted(rdd.glom().collect())[[1, 2], [3, 4]]原创 2016-03-14 01:17:57 · 5782 阅读 · 0 评论 -
spark编程debug(持续更新!)
rdd.collect()导致sparkConf shutdown可能是driver的内存设置太小了原创 2015-10-22 11:40:27 · 354 阅读 · 0 评论