spark
aturbofly
小硕一枚,码农一个。酷爱编程。热爱互联网。目前主要从事自然语言处理,推荐方面的算法开发。
研究生期间的研究方向:推荐系统。
展开
-
如何通过分区来提高spark的性能(java代码)
RDD是Spark上最重要的概念。可以将RDD理解为是包含很多对象的集合,这些对象实质上是存储在不同的分区上的。当在RDD上执行计算时,这些分区能够并行执行。通过修改分区,我们能够有效的提高spark job的性能。下面通过一个简单的例子来说明下。 举例:找素数 假如我们想找出200万以内的所有素数。简单的方法是,我们可以先找出所有的非素数。然后对全部数字,执行清除所有这些非素数。剩下的就是素翻译 2017-10-22 18:29:50 · 1026 阅读 · 0 评论 -
使用Spark cache来保障正确的一个例子
我们通常以为Spark cache就是一个用来优化spark程序性能的。本文举的例子会告诉你,cache的作用有时候可能比提高性能更重要。(原文标题:Using Spark’s cache for correctness, not just performance) 在学习Apache Spark的时候,我们被告知RDD是不可变的。但是,我这里要将到一个和这点冲突的一个小程序。这个Scala程序...翻译 2018-03-03 16:14:19 · 4995 阅读 · 1 评论