spark
文章平均质量分 85
王者的路注定孤独
是雄鹰就应搏击长空,是男儿就应纵横沙场。
展开
-
大数据Spark系列之Spark深入原理解析
1、spark的shuffle过程父RDD中同一分区中的数据按照算子要求重新进入子RDD的不同分区中;中间结果写入磁盘;由子RDD拉取数据,而不是由父RDD推送;默认情况下,shuffle不会改变分区数量。2、spark的宽窄依赖窄依赖:一个父RDD的分区被子RDD的一个分区使用。1个子RDD的分区对应于1个父RDD的分区,比如map,filter,union等算子。宽依赖:一个父RDD的分区被子RDD的多个分区使用。宽依赖一般是对RDD进行groupByKey,reduceByKey,sor原创 2021-10-24 22:37:47 · 715 阅读 · 0 评论 -
大数据Spark系列之Spark基本概念解析
1)Application用户在 spark 上构建的程序,包含了 driver 程序以及在集群上运行的程序代码,物理机器上涉及了 driver,master,worker 三个节点。2)Driver Program创建 sc ,定义 udf 函数,定义一个 spark 应用程序所需要的三大步骤的逻辑:加载数据集,处理数据,结果展示。3)Cluster Manager集群...原创 2020-04-03 17:41:43 · 19080 阅读 · 0 评论 -
大数据Spark系列之Spark单机环境搭建
1. 下载spark与scalaSpark下载地址http://mirrors.hust.edu.cn/apache/spark/spark-2.4.5/spark-2.4.5-bin-hadoop2.7.tgzScala下载地址http://www.scala-lang.org/files/archive/scala-2.10.4.tgz2. 解压安装$ tar ...原创 2020-04-03 17:23:33 · 31201 阅读 · 0 评论