![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 61
~花卷~
这个作者很懒,什么都没留下…
展开
-
spark-sql idea远程调试
spark-sql idea远程调试1、在远程服务器启动spark-sqlspark-sql --verbose --driver-java-options “-Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=8888”2、配置idea远程调试端口3、在idea代码处下断点即可进入。...原创 2021-01-31 23:36:06 · 569 阅读 · 0 评论 -
spark--度量系统代码模拟(java)
代码结构:Sink对比spark的SinkConsoleSink对比spark的consoleSinksource对比spark的SOurceASource对比ApplicationSourceMetricsSystem对比MetricsSystemsink代码public interface Sink { void start();}public class Con...原创 2020-03-23 22:52:06 · 117 阅读 · 0 评论 -
spark--度量系统
度量系统:在程序运行过程中对关键指标的一个记录。就是一个监控Spark的度量系统使用codahale提供的第三方度量仓库Metrics。1、代码结构:source:指的是这些监控指标的来源private[spark] trait Source { def sourceName: String def metricRegistry: MetricRegistry}private...原创 2020-03-23 22:45:50 · 250 阅读 · 0 评论 -
spark--服务总线代码模拟(java)
用java代码模拟监听器,监听事务触发。代码目录:event包定义事件,PersonEvent 相对类似spark的 SparkListenerEventpublic class PersonEvent {}public class EatEvent extends PersonEvent{};public class PlayEvent extends PersonEvent{...原创 2020-03-22 16:31:52 · 95 阅读 · 0 评论 -
spark-事件总线
1、CopyOnWriteArrayList:java的一个集合 implements List, RandomAccess, Cloneable, java.io.Serializable,写入时复制。当线程读的时候不上锁,写的时候进行上锁一份复制副本,写入改副本写完替换就对象。在写的过程中其他进程读的就是老数据。 public boolean add(E e) { fi...原创 2020-03-22 16:18:35 · 236 阅读 · 0 评论 -
Spark --从提交到执行任务相关代码流程
SparkSubmitSparkSubmit.main() --入口类SparkSubmit.submit() --提交方法,调用SparkApplication.startClientClientApp.start()–继承SparkApplication创建 ClientEndpointClientEndpoint.onStart() --向master请求启动driverMast...原创 2020-03-16 19:06:48 · 211 阅读 · 0 评论 -
spark-dagscheduler-handleJobSubmitted
private[scheduler] def handleJobSubmitted(jobId: Int, finalRDD: RDD[_], func: (TaskContext, Iterator[_]) => _, partitions: Array[Int], callSite: CallSite, listener: ...原创 2020-03-16 17:22:35 · 215 阅读 · 0 评论 -
Spark-ShuffleManager
一、SortShuffleManager1、运行原理分为两种模式,1、普通模式:上图说明了普通的SortShuffleManager的原理。在该模式下,数据会先写入一个内存数据结构中,此时根据不同的shuffle算子,可能选用不同的数据结构。如果是reduceByKey这种聚合类的shuffle算子,那么会选用Map数据结构,一边通过Map进行聚合,一边写入内存;如果是join这种普通的...原创 2020-02-26 23:57:37 · 422 阅读 · 0 评论 -
spark源码编译
文章目录Spark源码编译...转载 2020-02-26 14:14:33 · 288 阅读 · 0 评论 -
Spark sql优化实战(一)
背景:夜间跑批越来越慢,核心链路无法准时完成跑批,需要对超长任务进行优化。案例一:create table tmp.tmp_test_d as select a.sku ,a.barcode ,a.tu_code ,a.buyer_...原创 2020-02-24 22:34:54 · 624 阅读 · 0 评论 -
分库分表mysql到hdfs
前面文章写入如何将hdfs的数据分表插入mysql。这里主要讲解如何进行分库分表抽取。需求:原创 2020-02-07 16:20:10 · 422 阅读 · 0 评论 -
Spark源码2.4.0(二)-- on yarn启动
spark提交有 三种模式看下其中的 on yarn cluster:一、在sparksubmit这个类中启动时回去初始化运行环境(prepareSubmitEnvironment) private def submit(args: SparkSubmitArguments, uninitLog: Boolean): Unit = { // 环境相关,部署模式提交模式 va...原创 2020-01-30 12:10:14 · 270 阅读 · 1 评论 -
Spark源码2.4.0(一)--driver注册启动
spark的提交过程:用户在客户端提交,客户端机器会找到master要求开启driver,master在他的worker节点找到符合条件的机器然后最终在这个worker启动driver。代码分析如下:入口类: sparksubmit def main(); def main(args: Array[String]): Unit = { val submit = new Spar...原创 2020-01-20 15:57:03 · 276 阅读 · 0 评论 -
SparkToMysql分表推送
需求背景:线上千万级数据在离线批处理完成后,需要按指定字段分表推送方案思路:利用spark读取hive表数据,对数据按字段重分区,分区数据推送至不同的mysql表代码实现:1、// 解析配置文件,生成相关配置类2、spark部分```-------------------------spark-----------------------------val broad = sc.b...原创 2020-01-08 23:58:06 · 363 阅读 · 0 评论