![](https://img-blog.csdnimg.cn/20190927151101105.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Spark基础篇
文章平均质量分 73
Spark的基础内容,包括Spark的运行模式、基础架构等
Gklearlove
数据小开发
展开
-
Spak基础—4、RDD和DataSet的API(JAVA)
1、RDD的APIRDD的使用主要分转换操作和动作操作,其中转换操作输入值是RDD,返回值是RDD,且其是惰性的,也就是说不会真的去操作,只有当动作操作到来时才会全部一次性去操作类似于链条一样。动作操作的输入值是RDD,输出值的值,也就是RDD操作的终结。1-0、创建RDD/**创建rdd的方式有多种*从文件读取、从数据源获取、手动创建*步骤都是:* 1、创建sparkconf进行配置* 2、创建JavaSparkContext* 3、创建JavaRDD*注意:SparkSession是原创 2021-06-29 11:37:42 · 549 阅读 · 0 评论 -
Spak基础—3、共享变量
5、共享变量广播变量主要分为广播变量和累加器5-1、广播变量广播变量的特点:只读的数据,不是RDD只能再Driver定义或修改,无法在Executor 定义或修改在各个节点保存,不用因为任务再来回传输,直接读取本地一个Executor有一份副本广播变量的优点:不需要再来回传输,因此也减少了反复的序列化和反序列化频繁使用的变量会导致Executor的每个task都有一份副本,但是广播后同一个Executor共享一个副本,减少不必要的网络传输和GC广播变量使用的场景:频繁使用的原创 2021-06-28 17:46:50 · 434 阅读 · 0 评论 -
Spark基础—2、弹性分布式数据集RDD
4、RDD 弹性分布式数据集4-1、RDD的基本概念弹性分布式数据集,本质上就是特殊的只读的分区记录集合,可以分成多个分区,每个分区就是一个数据集片段,分区可以保存在不同节点上进行计算。4-2、RDD的特点a list of partitions:一个RDD是由多个partition组成的list,一般情况下,一个partition对应HDFS的一个block也就是一个文件a function for partiotioner:一个函数作用在每一个分区上,比如map的函数,每个分区都会执行一遍原创 2021-06-28 17:45:18 · 154 阅读 · 0 评论 -
Spark基础—1、Spark基础概念
Spark笔记一、Spark基础部分part1 Spark的基础概念1、Spark的介绍Apache Spark 是一个快速的,通用的集群计算系统。它对 Java,Scala,Python 和 R 提供了的高层 API,并有一个经优化的支持通用执行图计算的引擎。它还支持一组丰富的高级工具,包括用于 SQL 和结构化数据处理的 Spark SQL,用于机器学习的MLlib,用于图计算的 GraphX和流处理Spark Streaming。2、Spark的基本结构和执行过程基本结构与作用:主从架构原创 2021-06-22 15:16:17 · 209 阅读 · 0 评论