年青人阿本-CSDN博客

原创 kerbrose集群中spark任务读写hbase

项目中遇到集群开启kerbrose，需要spark读写hbase，刚开始仅仅做如下配置来获取connectionval configuration = HBaseConfiguration.create...（设置kerbrose配置）UserGroupInformation.setConfiguration(configuration)UserGroupInformation.log...

2018-09-27 15:11:03 867 1

原创 spark sql demo

通过pojo构造table：package sparkSql;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.api.java.func

2017-03-02 15:41:13 660

原创 spark streaming demo

spark streaming:package sparkstreaming;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapFunction;import org.apache.spark.api.java.function.Function2;import org

2017-03-02 15:25:53 932

原创 spark rdd的iterator()计算实现以及checkpoint源码

checkpointCheckpoint() : 说明：数据存在本地。该函数会创建个二进制文件，存在checkpoint目录。不是action，不会马上执行，配合 sc.setCheckpointDir(“/data/checkpoint”)使用. 使用该函数之前先 persist ，否则该函数会重新计算？？使用场景：当下游 RDD 计算出错时，可以直接从 ch

2016-12-16 23:04:08 4155

原创 Spark相关流程示意图

从网上搜集一些spark Runjtime、Schedule、Shuffle、stage划分等的示意图。之前写的博客一直没放过图，看起来可能没那么直观，这里搜集些，方便理解也以备以后可能用到。spark schedule总图： hadoop mapreduce流程：从图上可以看出hadoop mr每一次mr都要落盘。spark mr与hadoop mr落盘对比： spark Run

2016-12-11 15:01:10 652

原创 MapReduce--Shuffle过程

Shuffle正常意思是洗牌或弄乱.我们对Shuffle过程的期望： 1、完整地从map task端拉取数据到reduce 端。 2、在跨节点拉取数据时，尽可能地减少对带宽的不必要消耗。 3、减少磁盘IO对task执行的影响。shuffle过程简单描述：每个map task都有一个内存缓冲区，存储着map的输出结果，当缓冲区快满的时候需要将缓冲区的数据

2016-12-06 23:05:14 278

原创 Spark RDD操作函数说明

下面 (K,V)表Tuple2 ， <>表rdd内元素类型TransformationmapPartitions语法： def mapPartitions[U: ClassTag]( f: Iterator[T] => Iterator[U], preservesPartitioning: Boolean = false): RDD[U] 说明：参数 preservesPartitioning

2016-11-23 21:19:12 572

原创 spark配置详解

这些皆可在 spark-default.conf配置，或者部分可在 sparkconf().set设置应用程序属性属性名称 | 默认值 | 含义----------------------------------------------------------------------------------spark.app.name

2016-11-19 23:23:48 1798

原创 Spark中几种重要的结构类型

Stage：private[spark] abstract class Stage( val id: Int, //Stage的序号数值越大，优先级越高 val rdd: RDD[_], //归属于本Stage的最后一个rdd val numTasks: Int, //等于父RDD的输出Partition数目，该初始值来自 DAGScheduler.newO

2016-11-17 22:45:20 1552

原创 spark之stage转taskSet及task最佳位置计算

stage转taskSet及task最佳位置计算这部分源码在DAGScheduler.submitMissingTasks() 函数内摆上源码： /** Called when stage's parents are available and we can now do its task. */ private def submitMissingTasks(stage: Stage,

2016-11-16 23:08:39 1061

原创 Rdd成员变量Dependency介绍（类型及其如何被初始化）

rdd都继承自 class RDD，来看下它的主构造函数：abstract class RDD[T: ClassTag]( @transient private var _sc: SparkContext, // 参数deps即该rdd的依赖s @transient private var deps: Seq[Dependency[_]] ) extends Serial

2016-11-13 11:40:36 553

原创 kafka server.properties配置

放置一份server.properties的配置在这，运行正常，客户端连接正常。中间出过客户端连接的毛病，后来莫名其妙的好了，貌似与改动hosts文件有关broker.id=0port=9092# 配为主机名也运行正常host.name=10.46.179.206num.network.threads=3num.io.threads=8socket.send.buffer.bytes=10240

2016-11-12 14:40:50 379

原创 HRegionServer无法启动，启动hbase后马上挂掉的问题

把这次解决这个问题的操作记录下来，虽然还未搞清楚缘由，下次有空把hbase源码看一看。自己搭建了个伪分布式的hbase环境，配置好hbase-env.sh、hbase-site.xml、regionservers后启动hbase，使用hbase shell能正常建表等操作。然而idea代码连接却一直日志显示在一处不再动，很久后才报连接异常。2016-11-12 10:24:35,646 INFO

2016-11-12 10:43:55 14648 1

原创 Spark 角色说明（Client 、Master、Worker、Driver、Executor）

Standalone模式下存在的角色Client ：客户端进程，负责提交作业到Master。Master ：Standalone模式中主控节点，负责接收Client提交的作业，管理Worker，并命令Worker启动Driver和Executor。Worker ：Standalone模式中slave节点上的守护进程，负责管理本节点的资源，定期向Master汇报心跳，接收Master的命令，启动

2016-10-29 22:32:06 4303

原创 SparkSubmit 提交作业源码流程粗略概述（含application中 driver、client、 executor的创建）

SparkSubmit 提交程序源码流程及application中 driver、client、 executor的创建源码基于1.5.1版本大体流程说明：（后续作补充修改） 1、通过 sparkSubmit 命令提交执行SparkSubmit的main函数， 2、在SparkSubmit的main函数中调用 prepareSubmitEnvironment 方法，这个方法用于

2016-10-29 21:58:43 896

原创 eclipse黑色背景主题

eclipse默认的白色背景太刺眼，调成黑色比较舒适。一般背景和字体设置：window - General - Appearance (这里有设置主题)window - General - Appearance - Colors and Fonts 右边面板有颜色字体设置，可以选Basec - Text Font 设置代码字体大小（可以选11号字体）。window - Java -

2016-08-14 22:06:05 5369