![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 86
爱喝水的绿萝
这个作者很懒,什么都没留下…
展开
-
Spark(七)——累加器和广播变量
5、累加器通过在驱动器中调用SparkContext.accumulator(initialValue)方法,创建出存有初始值的累加器。返回值为org.apache.spark.Accumulator[T] 对象,其中 T 是初始值 initialValue 的类型。 Spark闭包里的执行器代码可以使用累加器的 += 方法(在Java中是 add)增加累加器的值。 驱动器程序可以调用累加器的value属性(在Java中使用value()或setValue())来访问累加器的值。 注意:工作节点上的原创 2021-12-15 14:03:03 · 682 阅读 · 1 评论 -
Spark(六)
6、RDD的依赖关系分为窄依赖(独生子)和宽依赖 窄依赖指的是每一个父 RDD 的 Partition 最多被子 RDD 的一个 Partition 使用,窄依赖 我们形象的比喻为独生子女 宽依赖指的是多个子 RDD 的 Partition 会依赖同一个父 RDD 的 Partition,会引起 shuffle,总结:宽依赖我们形象的比喻为超生7、行动算子7.1 reduce val conf = new SparkConf() .setMaster("lo..原创 2021-12-15 14:01:57 · 580 阅读 · 0 评论 -
Spark(五)
5.2 双Value类型5.2.1 union 作用:对源 RDD 和参数 RDD 求并集后返回一个新的 RDD #(1)创建第一个 RDDscala> val rdd1 = sc.parallelize(1 to 5)rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[23] at parallelize at <console>:24#(2)创建第二个 RDDscala> val rd原创 2021-12-15 13:59:48 · 899 阅读 · 0 评论 -
Spark(四)
5、RDD的转换算子5.1 Value类型5.1.1 map案例 作用:返回一个新的 RDD,该 RDD 由每一个输入元素经过 func 函数转换后组成 需求:创建一个 1-10 数组的 RDD,将所有元素*2 形成新的 RDD 1)创建scala> var source = sc.parallelize(1 to 10)source: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[8] at par原创 2021-12-15 13:58:23 · 908 阅读 · 0 评论 -
Spark(三)
2、认识RDD1、RDD是什么 RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据抽象。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合 A list of partitions RDD是一个包含了多个分区的列表 A function for computing each split RDD会在每个分片(分区)上单独启动一个线程并行完成函数运算 A list of de原创 2021-12-13 14:51:56 · 423 阅读 · 0 评论 -
Spark(二)
3、执行Spark任务spark-shell Spark中提供了类似scala解释器的工具spark-shell,可以在命令行中直接连接集群并提交执行任务 spark-shell --master spark://bd0701COPY编译器中编写Spark程序1、启动spark-shell脚本[root@zhaohui01 bin]# ./spark-shell --master spark://zhaohui01:70772、在编译器中做词频统计...原创 2021-12-13 14:50:18 · 312 阅读 · 0 评论 -
Spark(一)
1、是什么Spark是一个基于内存运算的分布式计算框架, 包含多个模块提供各种场景的数据统计分析计算,统一分析引擎 速度快 开发效率高运行速度快:Spark支持使用Scala、Java、Python、SQL、R进行快速分布式应用程序构建,并提供了基于内存的资源调度方式,可以将所有的计算步骤在网络和内存中完成,任务过程中不需要使用磁盘IO 简单易用 类似Scala中的集合,Spark中提供了近百种高级算子,和4种数据抽象,完成数据处理任务的编排 通用性 Spark提供了Spark原创 2021-12-13 14:47:08 · 234 阅读 · 0 评论