![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 52
a414129902
这个作者很懒,什么都没留下…
展开
-
Spark编程指南——Python版
摘要:对于1个年仅5岁的开源项目来说,其远谈不上尽善尽美,就比如文档相关。本文翻译自Spark Programming Guide,选取了其中使用Python的部分。 自开源之日至今,Spark已经5岁了。从最初不到4000行代码发展到当下通用大数据处理引擎的有力竞争者,Spark一直保持着小而紧凑,使许多开发人员更容易理解,也让升级起来更加方便。快、通用让Spark如鱼得水,然而对于1...原创 2016-01-05 11:41:19 · 95 阅读 · 0 评论 -
大数据计算平台Spark内核全面解读
1、Spark介绍 Spark是起源于美国加州大学伯克利分校AMPLab的大数据计算平台,在2010年开源,目前是Apache软件基金会的顶级项目。随着 Spark在大数据计算领域的暂露头角,越来越多的企业开始关注和使用。2014年11月,Spark在Daytona Gray Sort 100TB Benchmark竞赛中打破了由Hadoop MapReduce保持的排序记录。Spark利用...原创 2016-01-06 10:11:59 · 121 阅读 · 0 评论 -
Spark API 详解/大白话解释 之 map、mapPartitions、mapValues、mapWith、flatMap、flatMapWith、fla...
map(function) map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。 举例: val a = sc.parallelize(1 to 9, 3) val b = a.map(x => x*2)//x => x*2是一个函数,x是传入参数即RDD的每个元素,x*2是返回值 a.colle...原创 2016-03-15 15:36:53 · 576 阅读 · 0 评论 -
Spark API 详解/大白话解释 之 RDD、partition、count、collect
RDD定义: 任何数据在Spark中都被转换为RDD。 一个RDD可以看成是一个数组 不过是分到各个分区,分布在不同的机器上,可并行处理。 分区的定义: 一个RDD有多个RDD分区 一个RDD分区只在一个机器上 一个机器可有多个RDD分区 http://stackoverflow.com/questions/31359219/relationship-between-rdd-par...原创 2016-03-15 15:45:09 · 126 阅读 · 0 评论 -
Spark API 详解/大白话解释 之 reduce、reduceByKey
reduce(binary_function) reduce将RDD中元素前两个传给输入函数,产生一个新的return值,新产生的return值与RDD中下一个元素(第三个元素)组成两个元素,再被传给输入函数,直到最后只有一个值为止。 val c = sc.parallelize(1 to 10) c.reduce((x, y) => x + y)//结果55 具体过程,RDD有1...原创 2016-03-15 15:47:35 · 148 阅读 · 0 评论 -
Spark API 详解/大白话解释 之 groupBy、groupByKey
groupBy(function) function返回key,传入的RDD的各个元素根据这个key进行分组 val a = sc.parallelize(1 to 9, 3) a.groupBy(x => { if (x % 2 == 0) "even" else "odd" }).collect//分成两组 /*结果 Array( (even,ArrayBuffer(2, ...原创 2016-03-15 15:54:23 · 153 阅读 · 0 评论 -
spark 运行环境搭建
第一步:下载spark-1.0.2-bin-hadoop2.tgz ,scala-2.10.4.tgz 版本随意,由于文件包大于10兆,上传不了,自行下载吧,下载地址:http://spark.apache.org/downloads.html,http://www.scala-lang.org/download/ 下载完后解压到目录 如:/exprot/servers ,命令tar -z...2016-03-16 10:56:53 · 121 阅读 · 0 评论