![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
番茄炒蛋213
stay hungry,stay foolish!
展开
-
如何监控Spark的作业信息?
前言Spark的Web UI可以监控一些作业信息,但是Web UI是跟随作业的生命周期,不方便随时随地的获取作业的信息。因此,介绍一下以下两种监控方式:Spark自身监控和打造自己的监控官方地址:http://spark.apache.org/docs/latest/monitoring.html一、Spark自身监控Spark自带了history server脚本,只要我们配...原创 2020-05-03 23:10:31 · 704 阅读 · 0 评论 -
Spark RDD的窄依赖和宽依赖
前言RDD的五大特性之一就是RDD之间有依赖关系,描述了RDD如何从源头计算过来的。这样可以做到容错,如果某一个RDD分区出现错误,可以根据依赖关系重新计算相关的分区,而不需要全部重新计算。如果链路关系太长,可以checkpoint下来本文主要介绍下窄依赖和宽依赖一、窄依赖一个父RDD的分区至多被子RDD的某个分区使用一次1)一个父RDD和一个子RDD的分区是唯一映射的...原创 2020-05-03 21:22:05 · 470 阅读 · 0 评论 -
解决Spark on YARN时大量jar乱飞的情况
问题重现运行以下这个作业spark-submit \--class org.apache.spark.examples.SparkPi \--master yarn \--deploy-mode client \/opt/app/spark-2.4.5-bin-2.6.0-cdh5.16.2/examples/jars/spark-examples_2.12-2.4.5.jar ...原创 2020-05-03 12:22:05 · 488 阅读 · 0 评论 -
Spark on YARN的两种模式
目录前言一、Client模式二、Cluster模式三、两种模式对比需要在环境变量里设置HADOOP_CONF_DIR或YARN_CONF_DIR,告诉Spark如何连接Hadoop一、Client模式spark-submit \--class com.wsd.sparkcore.scala.SparkWCListenerV2 \--master yarn \--...原创 2020-05-03 10:24:30 · 329 阅读 · 0 评论 -
Spark集群模式概述
一、官方文档翻译Spark应用是以线程(processes)的方式独立运行在集群上,其协调通过你的程序的main方法的SparkContext(成为驱动程序:driver program)。SparkContext可以运行在不同的资源上(Spark standalone、Mesos、YARN),一旦连接上,Spark会请求Cluster Mananger在集群的节点上启动executor...原创 2020-05-02 11:17:56 · 248 阅读 · 0 评论 -
SparkCore之RDD算子Action
/** * 1、collect * 1)返回 Array(ele) * 2)实现方法:遍历添加到数组 * 3)需要注意的是因为该方法是把所有的数据放到内存,所以不适合大量数据==>否则OOM * * 2、take * 前n个元素 * collect vs take =====> * collect 是直接计算所有...原创 2020-05-01 17:20:05 · 180 阅读 · 0 评论 -
SparkCore之RDD算子transformation
1、map vs mapPartitionmap:作用于每一个元素,迭代次数==>元素数mapPartition:作用于每一个分区,迭代次数==>分区数==>因此,对于数据库创建、对象创建等操作,优选mapPartitionmapPartitionWithIndex:返回分区indexval rdd = sc.parallelize(List(1, 2, 3...原创 2020-05-01 17:05:27 · 137 阅读 · 0 评论 -
SparkCore之RDD概述
一、RDD简介RDD:弹性、分布式、数据集(resilient distrubuted dataset)1、弹性:分区数量可以调整2、分布式:可分区的集合(partitioned collection) 对于分区的数据可以以并行的方式操作(parallel)3、数据集不可变的(immutable):RDDA==>map==>RDDB(新的RDD)简单来说,RD...原创 2020-05-01 16:11:50 · 138 阅读 · 0 评论 -
Spark概述
一、Spark的产生背景1)MapReduce的局限性编程繁琐,要实现Map、Reduce、然后再组装起来。 计算性能不是很好,MR的Task都是进程(JVM)级别的 不合适交互式/多迭代计算,因为中间数据落地次数较多,磁盘IO、序列化、网络IO频繁 不能实现流式处理2)各种计算框架各自为战如果业务场景既有离线处理、又有实时处理,需要搭建使用多套框架,导致学习、维护都比较麻。...原创 2020-05-01 12:09:20 · 259 阅读 · 0 评论 -
SparkStreaming消费Kafka数据Offset的管理
参考链接:https://blog.csdn.net/xueba207/article/details/51135423 kafka0.8.2.2http://spark.apache.org/docs/latest/streaming-kafka-0-10-integration.html一、前言(Kafka2.0.0)Kafka支持producer的幂等性,并不支持...原创 2020-04-27 23:32:32 · 718 阅读 · 1 评论 -
Spark Streaming中foreachRDD的使用及闭包问题的产生处理
一、前言 foreachRDD是用来把Spark Streaming的数据sink到外部系统,但是使用的时候,这个算子将会被执行在driver进程中,而从driver到executor必然会涉及到序列化的问题。二、测试。需求:把流处理的WC结果写到MySQLMySQLUtilsobject MySQLUtils { /** * 获取连接 ...原创 2020-04-20 23:15:44 · 391 阅读 · 0 评论