- 博客(6)
- 收藏
- 关注
原创 Learning Spark笔记6-使用key,value
使用Key/ValueKey/Value是Spark中许多操作的常见数据类型。Key/Value RDD通常用于执行聚合,通常我们做一些ETL工作(extract,transform,load)将数据转换为Key/Value格式。Key/Value RDD的操作(例如,计数每个产品的评论,将相同键的数据分在一起,然后将两个不同的RDDs分组在一起)Spark还提供一个高级功
2017-04-28 09:51:13 1302
原创 Learning Spark笔记5-持久化(缓存)
持久化(缓存)之前讨论过,Spark RDDs是lazily evaluated,我们可能会多次使用同一个RDD。如果这样做的话,每次在RDD上调用一个动作时,Spark都将重新计算RDD以及它的所有依赖。对于迭代算法就特别的耗费资源,下面是一个计数的例子。Example 3-39. Double execution in Scalaval result = i
2017-04-26 12:11:14 326
原创 Learning Spark笔记4-常见的转换与动作
基本RDDs不管数据如何,我们先将介绍一下我们可以对RDDs做哪些转换和操作1.元素转换这里有两个常用的转换map()和filter()。map()转换会应用到RDD中的每个元素上,函数的结果是RDD,该RDD中的每个元素都有一个新值。filter转换返回的结果是RDD,该RDD只包含通过filter()的元素。我们可以使用map()
2017-04-26 09:36:13 598
原创 Learning Spark笔记3-传递函数给Spark
传递函数给Spark大多数的Spark转换和一些动作都依赖传递函数计算数据。1.Python 在Python中我们使用3种形式传递函数到Spark。对于较短的函数,我们可以传lambda表达式、通过顶层函数传递或定义本地函数。Example 3-18. Passing functions in Pythonword = rdd.filte
2017-04-14 11:46:36 1344
原创 Learning Spark笔记2-RDD介绍
RDDs编程一个RDD是一个简单分布式元素集合。在Spark中所有的工作都表达为要么创建新的RDDs,转变已存在RDDs,要么在RDDs中执行计算操作。在后台,Spark会自动在集群中分发RDD中包含的数据,并对你执行的操作进行并行化。RDD基础一个RDD在Spark中是一个简单的不可变的分布式对象集合。每个RDD被分割成多个分区,这些分区可能在集群中的
2017-04-14 08:55:34 313
原创 Learning Spark笔记1-Spark介绍
Learning Spark三个优点容易使用-你可以使用你的笔记本开发应用程序,使用高级API让你专注于你的计算内容上。快速的-通用引擎-让你组合多种类型的计算(例如,SQL查询、文本处理、机器学习)Apache SparkSpark被设计为快速的通用的机群计算平台速度方面,Spark扩展Mapreduce支持更多的计算类型,包括
2017-04-12 16:22:23 371
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人