2017年04月_艺菲

11月 10月 09月 07月 06月 05月 04月 03月

原创 Learning Spark笔记6-使用key,value

使用Key/ValueKey/Value是Spark中许多操作的常见数据类型。Key/Value RDD通常用于执行聚合，通常我们做一些ETL工作（extract,transform,load）将数据转换为Key/Value格式。Key/Value RDD的操作（例如，计数每个产品的评论，将相同键的数据分在一起，然后将两个不同的RDDs分组在一起）Spark还提供一个高级功

2017-04-28 09:51:13 1302

原创 Learning Spark笔记5-持久化（缓存）

持久化（缓存）之前讨论过，Spark RDDs是lazily evaluated，我们可能会多次使用同一个RDD。如果这样做的话，每次在RDD上调用一个动作时，Spark都将重新计算RDD以及它的所有依赖。对于迭代算法就特别的耗费资源，下面是一个计数的例子。Example 3-39. Double execution in Scalaval result = i

2017-04-26 12:11:14 326

原创 Learning Spark笔记4-常见的转换与动作

基本RDDs不管数据如何，我们先将介绍一下我们可以对RDDs做哪些转换和操作1.元素转换这里有两个常用的转换map()和filter()。map()转换会应用到RDD中的每个元素上，函数的结果是RDD，该RDD中的每个元素都有一个新值。filter转换返回的结果是RDD，该RDD只包含通过filter()的元素。我们可以使用map()

2017-04-26 09:36:13 598

原创 Learning Spark笔记3-传递函数给Spark

传递函数给Spark大多数的Spark转换和一些动作都依赖传递函数计算数据。1.Python 在Python中我们使用3种形式传递函数到Spark。对于较短的函数，我们可以传lambda表达式、通过顶层函数传递或定义本地函数。Example 3-18. Passing functions in Pythonword = rdd.filte

2017-04-14 11:46:36 1344

原创 Learning Spark笔记2-RDD介绍

RDDs编程一个RDD是一个简单分布式元素集合。在Spark中所有的工作都表达为要么创建新的RDDs，转变已存在RDDs，要么在RDDs中执行计算操作。在后台，Spark会自动在集群中分发RDD中包含的数据，并对你执行的操作进行并行化。RDD基础一个RDD在Spark中是一个简单的不可变的分布式对象集合。每个RDD被分割成多个分区，这些分区可能在集群中的

2017-04-14 08:55:34 313

原创 Learning Spark笔记1-Spark介绍

Learning Spark三个优点容易使用-你可以使用你的笔记本开发应用程序，使用高级API让你专注于你的计算内容上。快速的-通用引擎-让你组合多种类型的计算（例如，SQL查询、文本处理、机器学习）Apache SparkSpark被设计为快速的通用的机群计算平台速度方面，Spark扩展Mapreduce支持更多的计算类型，包括

2017-04-12 16:22:23 371

UE和Android互相调用

ue工程文件，包括自定义widget，blueprint，2个默认场景

2023-12-24

Shader Graph21-UV全景投影

room dds

2023-06-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人