2014年05月_隔壁老杨hongs

hadoop ha配置

HADOOP HA配置hadoop2.x的ha配置，此文档中描述有hdfs与yarn的ha配置。此文档的假定条件是zk已经安装并配置完成,其实也没什么安装的。hdfs ha配置首先，先配置core-site.xml配置文件：<property>在老版本中使用mr1时,还可能使用fs.default.name来进行配置 <name>fs...

2014-05-15 20:30:07 213

原创 hadoop-ha配置

HADOOP HA配置hadoop2.x的ha配置，此文档中描述有hdfs与yarn的ha配置。此文档的假定条件是zk已经安装并配置完成,其实也没什么安装的。hdfs ha配置首先，先配置core-site.xml配置文件：在老版本中使用mr1时,还可能使用fs.default.name来进行配置 fs.defaultFS此处配置的mycluster目前还没

2014-05-15 20:25:05 3697

原创 hadoop-mapreduce中reducetask运行分析

ReduceTask的运行Reduce处理程序中需要执行三个类型的处理，1.copy,从各map中copy数据过来2.sort,对数据进行排序操作。3.reduce,执行业务逻辑的处理。ReduceTask的运行也是通过run方法开始，通过mapreduce.job.reduce.shuffle.consumer.plugin.class配置shuffle的plugin,

2014-05-14 13:30:00 1945

hadoop-mapreduce中reducetask运行分析

ReduceTask的运行 Reduce处理程序中需要执行三个类型的处理， 1.copy,从各map中copy数据过来 2.sort,对数据进行排序操作。 3.reduce,执行业务逻辑的处理。 ReduceTask的运行也是通过run方法开始，通过mapreduce.job.reduce.shuffle.consumer.plugin.c...

2014-05-14 13:29:25 313

hadoop-mapreduce中maptask运行分析

MapTask运行通过执行.run方法： 1.生成TaskAttemptContextImpl实例，此实例中的Configuration就是job本身。 2.得到用户定义的Mapper实现类，也就是map函数的类。 3.得到InputFormat实现类。 4.得到当前task对应的InputSplit. 5.通过InputFormat,得到对应的Rec...

2014-05-13 12:48:31 148

原创 hadoop-mapreduce中maptask运行分析

MapTask运行通过执行.run方法：1.生成TaskAttemptContextImpl实例，此实例中的Configuration就是job本身。2.得到用户定义的Mapper实现类，也就是map函数的类。3.得到InputFormat实现类。4.得到当前task对应的InputSplit.5.通过InputFormat,得到对应的RecordReader。6.生成Re

2014-05-13 12:42:03 2753

hbase hfilev2文件

HFileV2文件 HFileV2文件写入通过StoreFile.Writer-->HFileWriterV2进行写入。文件格式通过hfile.format.version配置。默认为2，也只有2这个值在0.96可用。可通过cf中配置DATA_BLOCK_ENCODING配置dataBlock的encoding, 可配置值：NONE,PREFIX...

2014-05-10 21:58:16 137

原创 hbase hfilev2

HFileV2文件HFileV2文件写入通过StoreFile.Writer-->HFileWriterV2进行写入。文件格式通过hfile.format.version配置。默认为2，也只有2这个值在0.96可用。可通过cf中配置DATA_BLOCK_ENCODING配置dataBlock的encoding,可配置值：NONE,PREFIX,DIFF,FAST_DIFF,PREF

2014-05-10 21:57:51 1607

Hbase MemStoreLAB

关于MemStore的补充在通过HStore.add向store中添加一个kv时，首先把数据写入到memstore中。这一点没有什么说明； publiclong add(final KeyValue kv) { lock.readLock().lock(); try { returnthis.memstore.add(kv); } fi...

2014-05-10 10:17:45 226

原创 hbase memstorelab

关于MemStore的补充在通过HStore.add向store中添加一个kv时，首先把数据写入到memstore中。这一点没有什么说明；publiclongadd(finalKeyValue kv) {lock.readLock().lock();try{returnthis.memstore.add(kv);}finally{lock.readLock().un

2014-05-10 10:15:46 1122

spark shuffle部分分析

spark shuffle流程分析回到ShuffleMapTask.runTask函数现在回到ShuffleMapTask.runTask函数中： override def runTask(context: TaskContext): MapStatus = { 首先得到要reduce的task的个数。 valnumOutputSplits...

2014-05-09 13:37:38 185

原创 spark shuffle过程分析

spark shuffle流程分析回到ShuffleMapTask.runTask函数现在回到ShuffleMapTask.runTask函数中：overridedef runTask(context:TaskContext): MapStatus = {首先得到要reduce的task的个数。valnumOutputSplits=dep.partitioner.num

2014-05-09 13:36:18 3335

Task的执行过程分析

Task的执行过程分析 Task的执行通过Worker启动时生成的Executor实例进行， case RegisteredExecutor(sparkProperties) => logInfo("Successfully registered with driver") // Make this host instead of hostPort ...

2014-05-08 12:32:00 241

原创 Task的执行过程分析

Task的执行过程分析Task的执行通过Worker启动时生成的Executor实例进行，caseRegisteredExecutor(sparkProperties)=>logInfo("Successfullyregistered with driver")//Make this host instead of hostPort ?executor=newExecuto

2014-05-08 12:31:27 3782

Spark中的Scheduler

Spark中的Scheduler scheduler分成两个类型，一个是TaskScheduler与其实现，一个是DAGScheduler。 TaskScheduler:主要负责各stage中传入的task的执行与调度。 DAGScheduler:主要负责对JOB中的各种依赖进行解析，根据RDD的依赖生成stage并通知TaskScheduler执行。实例生...

2014-05-03 21:23:35 147

原创 Spark中的Scheduler

Spark中的Schedulerscheduler分成两个类型，一个是TaskScheduler与其实现，一个是DAGScheduler。TaskScheduler:主要负责各stage中传入的task的执行与调度。DAGScheduler:主要负责对JOB中的各种依赖进行解析，根据RDD的依赖生成stage并通知TaskScheduler执行。实例生成TaskSchedule

2014-05-03 21:17:30 2247

RDD的依赖关系

RDD的依赖关系 Rdd之间的依赖关系通过rdd中的getDependencies来进行表示，在提交job后，会通过在 DAGShuduler.submitStage-->getMissingParentStages privatedef getMissingParentStages(stage: Stage): List[Stage] = { va...

2014-05-03 01:39:03 121

原创 RDD的依赖关系

RDD的依赖关系Rdd之间的依赖关系通过rdd中的getDependencies来进行表示，在提交job后，会通过在DAGShuduler.submitStage-->getMissingParentStagesprivatedefgetMissingParentStages(stage: Stage): List[Stage] = {valmissing =newHash

2014-05-03 01:32:19 3201

从wordcount分析spark提交job

从WordCount开始分析编写一个例子程序编写一个从HDFS中读取并计算wordcount的例子程序: package org.apache.spark.examples import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ ...

2014-05-02 12:51:37 156

原创 spark 启动job的流程分析

从WordCount开始分析编写一个例子程序编写一个从HDFS中读取并计算wordcount的例子程序:packageorg.apache.spark.examplesimportorg.apache.spark.SparkContextimportorg.apache.spark.SparkContext._objectWordCount{defm

2014-05-02 12:47:18 4558 1

隔壁老杨的专栏