spark
千年小妖L
日拱一卒,功不唐捐!
展开
-
Spark累加器与广播变量
Spark 累加器与广播变量一、简介二、累加器 2.1 理解闭包 2.2 使用累加器三、广播变量一、简介在 Spark 中,提供了两种类型的共享变量:累加器 (accumulator) 与广播变量 (broadcast variable):累加器:用来对信息进行聚合,主要用于累计计数等场景;广播变量原创 2020-09-13 18:51:01 · 582 阅读 · 0 评论 -
Spark部署模式与作业提交
Spark部署模式与作业提交一、作业提交二、Local模式三、Standalone模式三、Spark on Yarn模式一、作业提交1.1 spark-submitSpark 所有模式均使用 spark-submit 命令提交作业,其格式如下:./bin/spark-submit \ --class <main-class> \ # 应用程序主入口类 --master <master-url> \ # 集群的 Master Ur原创 2020-09-13 18:48:40 · 308 阅读 · 0 评论 -
SparkSQL外部数据源
Spark SQL 外部数据源一、简介 1.1 多数据源支持 1.2 读数据格式 1.3 写数据格式二、CSV 2.1 读原创 2020-09-13 18:44:12 · 730 阅读 · 0 评论 -
SparkSQL联结操作
Spark SQL JOIN一、 数据准备二、连接类型 2.1 INNER JOIN 2.2 FULL OUTER JOIN 2.3 LEFT OUTER JOIN &原创 2020-09-06 14:27:42 · 492 阅读 · 0 评论 -
SparkSQL常用聚合函数
聚合函数Aggregations一、简单聚合 1.1 数据准备 1.2 count 1.3 countDistinct 1.原创 2020-09-06 14:23:33 · 1452 阅读 · 0 评论 -
Spark_RDD
弹性式数据集RDDs一、RDD简介二、创建RDD 2.1 由现有集合创建 2.2 引用外部存储系统中的数据集 2.3 textFile & wholeTextFiles三、操作RDD四、缓存RDD&nbs原创 2020-09-06 11:25:34 · 303 阅读 · 0 评论