spark大数据
怎么全部重名了
坚持就是胜利
展开
-
java集成datax
网上关于java集成datax方法很少,这里我写一个java集成datax的案例,希望能帮到你。下面直奔主题!方法很简单,去github下载datax,大概一个g大小。解压它Pom文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" ...原创 2019-11-21 15:23:13 · 890 阅读 · 0 评论 -
java集成sqoop
网上关于java集成sqoop的资料很少,这里我写一个java集成sqoop的代码。sqoop我自然不用介绍了,大家都知道。直奔主题!Sqoop Java集成sqoop。数据从Mysql到hdfs1.windows下载sqoop网址http://mirror.bit.edu.cn/apache/sqoop/1.4.7/选择sqoop-1.4.7.bin__hadoop-2.6.0.ta...原创 2019-11-21 15:04:23 · 658 阅读 · 1 评论 -
springboot集成sqoop
sqoop我就不再这里给大家介绍了,能来到这里应该都知道sqoop了。目前我写了一个demo,springboot操作sqoop。废话不多说,直入主题。pom文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http:/...原创 2019-11-21 14:57:41 · 2070 阅读 · 27 评论 -
spark 2.2.0源码解读(七) spark内存分配
spark的内存分配模型如下图所示:可以看到other占用40%英语用户定义的数据结构和spark元数据,这40%比例是不可变的,同一内存有60%,其中storage和executor各占50%,所以他们各自占用总体的30%,executor就是执行执行程序中间发生shuffle过程产生的中间数据,storage用于缓存数据。executor和storage在老版本不能互相借用,在新版本中可以互...转载 2019-10-11 11:01:04 · 179 阅读 · 0 评论 -
spark 2.2.0源码解读(六) driver和executor之间如何通信(源码细致研究)
上一篇文章从理论上分析了driver和executor之间是如何,这一篇是从代码上细致的分析2者之间是如何通信的,文章篇幅较长,需要耐心阅读。/* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file...原创 2019-10-10 20:27:23 · 625 阅读 · 0 评论 -
spark 2.2.0源码解读(五) driver和executor之间如何通信
driver:发送任务。检测executor状态。executor:接受任务并执行,完成task任务。给driver发送消息反馈自己状态。driver和executor之间通信老版本有2中方法,netty和akka,新版本只有netty通信。先说一下akka通信:一张图就把关系解释清楚了,akka定时给executor发送心跳,executor接受到心跳后反馈自身信息,如果driver没有...原创 2019-10-10 17:25:01 · 1194 阅读 · 0 评论 -
spark 2.2.0源码解读(四) spark-submit源码解读
spark有四种运行模式,standalone,yarn,mesos,local。yarn又分为client,cluster两种。系统默认使用client。这两者区别是client模式中,driver分给一个节点,如果这个节点宕机,则运行失败。cluster模式,driver分给每个节点,如果一个节点宕机,没有关机,其他节点会顶替上来。所以cluster比client性能好。测试代码时...原创 2019-10-10 16:52:48 · 130 阅读 · 1 评论 -
spark 2.2.0源码解读(三) spark调度策略
这个文章比较长,看的时候需要些耐心,源码中将如何分配资源,如何调度任务,调度策略,如何管理任务,如何给webui界面传参数等等都做了详细设计,代码之美,无法用言语来表达,说来话长,还是看代码吧。/* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreem...原创 2019-10-09 23:29:23 · 277 阅读 · 0 评论 -
spark 2.2.0源码解读(二) spark context源码解读
spark context源码解读spark context是spark的上下文环境,也是spark程序的入口,在spark2.0中sparkcontext融入到sparksession中,直接可以用sparksession.sparkContext去调用它。spark程序是运行在jvm上的,一个jvm只能有一个活跃的sparkcontext,所以在你代码末尾加上一个sparkcontext....原创 2019-10-09 09:47:58 · 523 阅读 · 0 评论 -
spark 2.2.0源码解读(一) rdd源码解读
spark 2.2.0源码解读(一) rdd源码解读spark中有很多rdd,每个rdd都有自己的作用,恰当用好rdd可以达到事半功倍的效果.闲话少说,直接上代码cache /** * Persist this RDD with the default storage level (`MEMORY_ONLY`). * 持久化RDD使用默认的存储级别(`MEMORY_ONLY`...原创 2019-10-08 20:07:48 · 224 阅读 · 0 评论