![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 76
pcz_x
On the way
个人主页: https://www.pzque.com
github: https://github.com/pqzue
展开
-
spark RDD常用函数/操作
spark RDD常用函数/操作文中的代码均可以在spark-shell中运行。transformationsmap(func)集合内的每个元素通过function映射为新元素val a = Array(1,2,3,4)val pa = sc.parallelize(a)val resultRdd = pa.map( _ + 1)注意对于所有transformation操作,生成的都是一个新的R原创 2017-09-17 12:03:48 · 3018 阅读 · 0 评论 -
spark集群部署模式概览
spark集群部署模式概览[原文连接]元素一个spark应用包含运行在集群里的一系列进程,它们由主程序(称作driver)里的SparkContext对象协调。SparkContext可以连接不同的集群管理器( Spark的 standalone cluster manager/ Mesos/YARN),这层抽象使得spark可以利用不同的底层设施。集群管理器用于分配资源,spark应用的运行流程与翻译 2017-09-16 17:43:03 · 601 阅读 · 0 评论 -
spark编程指南
spark编程指南可以使容器并行化val data = Array(1, 2, 3, 4, 5)val distData = sc.parallelize(data)扩展数据集可以直接使用文本文件scala> val distFile = sc.textFile("data.txt")distFile: org.apache.spark.rdd.RDD[String] = data.txt原创 2017-09-17 23:27:17 · 388 阅读 · 0 评论