Spark
laughing1997
这个作者很懒,什么都没留下…
展开
-
spark单机环境安装
Ubuntu16.04以上Hadoop 2.7.1以上Java JDK 1.7以上Spark 2.1.01、安装好jdk2、解压spark文件tar -xvf spark-2.0.1-bin-hadoop2.7.tgz3、进入安装文件cd conf修改配置文件复制conf spark-env.sh.template 文件为 spark-env.sh在其中修改,增加如下内容...原创 2018-10-18 16:07:58 · 996 阅读 · 0 评论 -
spark分区数,task数目,core数,worker节点个数,excutor数量梳理
输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。当Spark读取这些文件作为输入时,会根据具体数据格式对应的InputFormat进行解析,一般是将若干个Block合并成一个输入分片,称为InputSplit,注意InputSplit不能跨越文件。随后将为这些输入分片生成具体的Task。InputSplit与Task是一一对应的关系。随后这些具体的Ta...转载 2018-10-18 16:12:15 · 1934 阅读 · 0 评论 -
基于Spark案例,对Spark内核源码在Standalone提交模式的深度剖析 (乾坤大挪移第一层)
自己最近把spark的知识整理了一下,想要比较清晰的解释下他的初步内核源码机制。以方便自己后期查阅。文章中涉及的1、stage划分算法2、master资源调度算法3、task算法(数据优化,数据本地化)后期我会基于spark2.0版本的源码进行一次剖析,此次只是初步的,如有未尽事宜。请大家多多批评指正,我愿意接受一切意见,只要不是侮辱。啊啊哈。序言:基于下面这段初始代码谈执行过程。d...原创 2019-04-02 14:57:05 · 383 阅读 · 0 评论 -
Spark组件之SparkContext原理源码剖析(乾坤大挪移第二层)
今天谈一下Spark比较重要的组件。文章有不足之处,多多指正。SparkContext三个重点:TaskScheduler,如何注册application,executor如何反向注册 (重中之重)DAGScheduler的通信SparkUI显示的是什么,用的是什么服务器上流程图:TaskScheduler的创建流程如下:流程总结:启动CreateTaskSchedule...原创 2019-04-03 11:56:12 · 290 阅读 · 0 评论