![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
weixin_41624046
这个作者很懒,什么都没留下…
展开
-
spark流程源码解析
spark流程源码解析这篇文章是编写的spark流程笔记的入口功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入这篇文章...原创 2019-03-01 17:05:05 · 561 阅读 · 0 评论 -
创建sparkEnv具体步骤
准备工作首先会在SparkSubmit在main()方法中执行,然后根据提交的类型调用相应的方法,这里是”Submit”,调用submit()方法,submit()里面进行一些判断后,使用反射Class.forName(childMainClass, true, loader),然后调用invoke()方法来调用程序员自己写的类,也就是自己写的程序步骤1.创建SparkEnv对象main...原创 2019-02-28 23:43:59 · 365 阅读 · 0 评论 -
Master的作用
作用主备切换机制(HA)Master HA 的四大方式:分別是 ZOOKEEPER,FILESYSTEM, CUSTOM, NONE;需要说明的是:ZOOKEEPER 是自動管理 Master;FILESYSTEM 的方式在 Master 出现突障后需要手动启动机器,机器启动后会立即成为 Active 级别的 Master来对外提供服务(接受应用程序提交的请求、接受新的 Job 运行...原创 2019-03-01 17:56:58 · 3177 阅读 · 0 评论 -
worker的一般工作流程
第一步,创建driver的工作目录第二步,下载用户上传的jar到drive的目录,并返回它在worker本地的路径,如果下载jar包的过程中出现了任何异常,那么会抛出exection异常用Hadoop jar的Path 拿到了Hadoop配置获取了HDFS的filesystem 创建本地目录如果jar不存在,用hdfs拷贝到本地目录当中第三步,构建ProcessBuilder...原创 2019-03-01 18:12:14 · 465 阅读 · 0 评论 -
spark shuffle特点和导致shuffle的算子
Spark Shuffle操作的两个特点第一个特点,在Spark早期版本中,那个bucket缓存是非常非常重要的,因为需要将一个ShuffleMapTask所有的数据都写入内存缓存之后,才会刷新到磁盘。但是这就有一个问题,如果map side数据过多,那么很容易造成内存溢出。所以spark在新版本中,优化了,默认那个内存缓存是100kb,然后呢,写入一点数据达到了刷新到磁盘的阈值之后,就会将...原创 2019-03-01 18:40:23 · 5129 阅读 · 1 评论 -
shuffle数据参数
属性名称 默认值 属性说明spark.reducer.maxSizeInFlight 48m reduce task的buffer缓冲,代表了每个reduce task每次能够拉取的map side数据最大大小,如果内存充足,可以考虑加大大小,从而减少网络传输次数,提升性能spark.shuffle.blockTransferService netty...原创 2019-03-01 18:41:44 · 1541 阅读 · 0 评论 -
Hbase基础
HBase介绍HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。是一个可以随机访问的存储和检索数据的平台。HBase不限制存储的数据的种类,允许动态的、灵活的数据模型,不用SQL语言,也不强调数据之间的关系。HBase被设计成在一个服务器集群上运行,可以相应地横向扩展...原创 2019-03-03 13:08:51 · 147 阅读 · 0 评论 -
shuffle机制和原理
spark基础之shuffle机制和原理分析原创 2019-03-03 18:38:56 · 474 阅读 · 1 评论