官方Spark Programming Guide学习心得(V2.1.0)

原文地址:http://spark.apache.org/docs/latest/programming-guide.html

 

写的简单明了,实际中要注意的几点:

1、客户端版本库引用,开始不支持JDK7:

  
  
spark引用 groupId = org.apache.spark artifactId = spark - core_2. 11 version = 2.1 . 0 如果需要hdfs,需要引用 groupId = org.apache.hadoop artifactId = hadoop - client version = < your - hdfs - version >

 

2、初始化环境

  
  
SparkConf conf = new SparkConf().setAppName(appName).setMaster(master); JavaSparkContext sc = new JavaSparkContext(conf);

本地集成环境运行的话,要设置master为local

 

3、常用的RDD操作

Transformations
Actions

 

4、通过介绍reduceByKey来解释Shuffle operations

 

文档写的真棒!

推荐infoq上一篇文章,也非常好:

http://www.infoq.com/cn/articles/spark-core-rdd  理解Spark的核心RDD,摘要:

5、RDD,全称为Resilient Distributed Datasets,是一个容错的、并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并能控制数据的分区。针对数据处理有几种常见模型,包括:Iterative Algorithms,Relational Queries,MapReduce,Stream Processing。例如Hadoop MapReduce采用了MapReduces模型,Storm则采用了Stream Processing模型。

 

6、图解RDD

本图来自Matei Zaharia撰写的论文An Architecture for Fast and General Data Processing on Large Clusters。图中,一个box代表一个RDD,一个带阴影的矩形框代表一个partition。

注意理解:map /groupBy/union/join的RDD操作的shuffle

 

7、推荐论文: An Architecture for Fast and General Data Processing on Large Clusters

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小小她爹

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值