![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark Core
文章平均质量分 75
江陵之月
本人是一个具有文艺范的程序员,是大数据工程师,家在成都,到一线城市打拼过,现在回到家乡发展,希望在CSDN遇到志同道合的人
展开
-
Spark的容错机制
Spark的容错机制分布式数据集的容错Spark的容错机制Lineage机制依赖窄依赖宽依赖Checkpoint容错机制分布式数据集的容错方式:1)数据检查点:会发生拷贝,浪费资源2)记录数据的更新:默认方式。在部分计算结果丢失时,只需要根据这个Lineage重算即可。每次更新都会记录下来,比较复杂且比较消耗性能特点:Spark选择记录更新的方式Spark的容错机制对应:RDD的容错机制分类:1)Lineage机制2)Checkpoint机制Lineage机制含义:RDD的Lineage原创 2021-01-12 13:49:11 · 1145 阅读 · 0 评论 -
Spark UI
Spark Web UISpark Web UI实时UI管理JobsJobs DetailStagesStorageStorage DetailEnviromentExecutorSQL历史UI管理Spark Web UI分类:1)实时UI管理2)历史UI管理实时UI管理分类:1)Jobs2)Stages3)Storage4)Environment5)ExecutorsJobs作用:展示的是整个Spark应用任务的Job整体信息特点:Job默认都是串行提交运行的,如果Job间没有依原创 2021-01-12 13:45:20 · 1567 阅读 · 0 评论 -
Spark的优化.集群优化
Spark的集群调优Spark的集群调优数据本地性存储格式Spark的内存溢出Driver内存不够读取数据太大Driver内存不够.数据回传Executor内存不够map类操作产生大量数据Shuffle后产生数据倾斜Spark的集群调优方式:1)防止不必要的jar重复分发2)数据本地性3)存储格式选择4)资源隔离(打标签)5)NM JVM参数优化6)集群硬件环境数据本地性分类:1)PROCESS_LOCAL,第一选择2)NODE_LOCAL,第二选择3)ANY,第三选择存储格式分类原创 2021-01-12 13:40:22 · 147 阅读 · 0 评论 -
Spark的日志
Spark的日志YARN模式的日志查看聚合日志Web UI分散查看YARN模式的日志查看分类:1)聚合日志2)Web UI3)分散查看聚合日志别称:日志聚集含义:YARN提供的日志中央化管理功能,它能将运行完成的Container/任务日志上传到HDFS上参数:1)yarn.log-aggregation-enable是否启用日志聚合功能,日志聚合开启后保存到HDFS上。默认为false2)yarn.log-aggregation.retain-seconds在HDFS上聚集的日志最多原创 2021-01-12 13:35:49 · 445 阅读 · 0 评论 -
Spark的度量
Spark的度量Spark的度量InstanceSourceSinkSpark的度量别称:Spark的度量系统组件:1)Instance2)Source3)SinkInstance含义:指定了度量系统的实例名分类:1)Master2)Worker3)Application4)Driver5)ExecutorSource含义:指定了从哪里收集度量数据,即度量数据的来源分类:1)ApplicationSource2)WorkerSource3)DAGSchedulerSourc原创 2021-01-12 13:29:44 · 180 阅读 · 0 评论 -
Spark Core学习.WordCount代码
Spark Core学习.WordCount代码Spark Core的WordCount Java代码方式一方式二方式三方式四方式五方式六总结Spark Core的WordCount Java代码方式一import java.util.Arrays;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;impo原创 2020-10-23 17:27:15 · 133 阅读 · 0 评论