• 我的消息
  • 我的博客
  • 我的学院
  • 我的下载
  • 我的收藏
  • 消息
  • 搜索条件:
    点击返回全部
    全部文章 > {categoryName }
    • JVM高CPU定位脚本

      #!/bin/ksh typeset top=10 typeset pid=$1 typeset tmp_file=/tmp/java_${pid}_$$.trace $JAVA_HOME/bin...

      转载
      2017-11-30 23:07:07
      13
      0
    • spark shuffle过程分析

      shuffle是作业执行过程中的一个重要阶段,对作业性能有很大影响,不管是对hadoop还是spark,shuffle都是一个核心环节,spark的shuffle和hadoop的shuffle的原理大...

      原创
      2015-11-19 15:21:22
      550
      0
    • spark task启动

      woker接受到LaunchTask消息后会启动task,以local模式为例,代码如下。task是由executor来启动的 override def receiveWithLogging = {...

      原创
      2015-11-19 14:39:31
      387
      0
    • spark shuffle内存申请策略

      在一个executor中可以并行执行多个task,这些task都可能发生shuffle,每个task看作一个线程,这些线程公用一个内存池,这时就涉及到内存的使用策略了,申请过多会导致其他task sp...

      原创
      2015-11-16 19:45:26
      730
      0
    • Spark TaskSet提交及执行准备

      一个stage是由一组相同运算的task组成,他们分别计算不同的partition,stage的提交实际是向调度器提交一组包含相同计算的task,这里调度器的名字是TaskScheduler,其调度单...

      原创
      2015-11-11 19:31:36
      967
      0
    • Spark stage切分和提交

      客户端构建好RDD的DAG以后,会提交至DAGScheduler来处理,这是一个Stage级别的调度器,他首先会把作业切分为一个个Stage,每个Stage由一组相同运算的tasks组成,然后会以ta...

      原创
      2015-11-10 19:15:21
      942
      0
    • Spark中RDD DAG图的建立

      RDD是spark计算的核心,是分布式数据元素的集合,具有不可变、可分区、可被并行操作的特性,基础的RDD类包含了常用的操作,如果需要特殊操作可以继承RDD基类进行自己的扩展,基础预算包括map、fi...

      原创
      2015-11-05 17:48:58
      2313
      0
    • 隧道打通自动化脚本

      平时我们可能有打通网络的需求,也就是建立隧道,比如两个建立两个只有内网IP机器的直连。openssh给我们提供了这个功能,但有时隧道可能不稳定,超时、网络波动等情况,这时就需要重新建立连接,而且每次要...

      原创
      2015-03-30 14:53:23
      684
      0
    • JStorm之Woker启动流程

      我们知道,在Jstorm中具体任务执行是由Woker来完成的,Woker的启动是由Supervisor组件负责,下面就介绍一个Woker的启动流程。 Sueprvisor在启动后会启动一个检测任务分...

      原创
      2015-03-25 18:51:15
      2443
      0
    • JStorm之Topology调度

      topology在服务端提交过程中,会经过一系列的验证和初始化:TP结构校验、创建本地目录并拷贝序列化文件jar包、生成znode用于存放TP和task等信息,最后一步才进行任务分配,如下图: ...

      原创
      2015-03-16 19:10:23
      1195
      0
  • 学院
  • 下载
  • 消息