- 博客(20)
- 收藏
- 关注
hadoop ha配置
HADOOP HA配置hadoop2.x的ha配置,此文档中描述有hdfs与yarn的ha配置。此文档的假定条件是zk已经安装并配置完成,其实也没什么安装的。hdfs ha配置首先,先配置core-site.xml配置文件:<property>在老版本中使用mr1时,还可能使用fs.default.name来进行配置 <name>fs...
2014-05-15 20:30:07 213
原创 hadoop-ha配置
HADOOP HA配置hadoop2.x的ha配置,此文档中描述有hdfs与yarn的ha配置。此文档的假定条件是zk已经安装并配置完成,其实也没什么安装的。hdfs ha配置 首先,先配置core-site.xml配置文件:在老版本中使用mr1时,还可能使用fs.default.name来进行配置 fs.defaultFS此处配置的mycluster目前还没
2014-05-15 20:25:05 3697
原创 hadoop-mapreduce中reducetask运行分析
ReduceTask的运行Reduce处理程序中需要执行三个类型的处理,1.copy,从各map中copy数据过来2.sort,对数据进行排序操作。3.reduce,执行业务逻辑的处理。ReduceTask的运行也是通过run方法开始,通过mapreduce.job.reduce.shuffle.consumer.plugin.class配置shuffle的plugin,
2014-05-14 13:30:00 1945
hadoop-mapreduce中reducetask运行分析
ReduceTask的运行 Reduce处理程序中需要执行三个类型的处理, 1.copy,从各map中copy数据过来 2.sort,对数据进行排序操作。 3.reduce,执行业务逻辑的处理。 ReduceTask的运行也是通过run方法开始, 通过mapreduce.job.reduce.shuffle.consumer.plugin.c...
2014-05-14 13:29:25 313
hadoop-mapreduce中maptask运行分析
MapTask运行通过执行.run方法: 1.生成TaskAttemptContextImpl实例,此实例中的Configuration就是job本身。 2.得到用户定义的Mapper实现类,也就是map函数的类。 3.得到InputFormat实现类。 4.得到当前task对应的InputSplit. 5.通过InputFormat,得到对应的Rec...
2014-05-13 12:48:31 148
原创 hadoop-mapreduce中maptask运行分析
MapTask运行通过执行.run方法:1.生成TaskAttemptContextImpl实例,此实例中的Configuration就是job本身。2.得到用户定义的Mapper实现类,也就是map函数的类。3.得到InputFormat实现类。4.得到当前task对应的InputSplit.5.通过InputFormat,得到对应的RecordReader。6.生成Re
2014-05-13 12:42:03 2753
hbase hfilev2文件
HFileV2文件 HFileV2文件写入通过StoreFile.Writer-->HFileWriterV2进行写入。 文件格式通过hfile.format.version配置。默认为2,也只有2这个值在0.96可用。 可通过cf中配置DATA_BLOCK_ENCODING配置dataBlock的encoding, 可配置值:NONE,PREFIX...
2014-05-10 21:58:16 137
原创 hbase hfilev2
HFileV2文件HFileV2文件写入通过StoreFile.Writer-->HFileWriterV2进行写入。文件格式通过hfile.format.version配置。默认为2,也只有2这个值在0.96可用。可通过cf中配置DATA_BLOCK_ENCODING配置dataBlock的encoding,可配置值:NONE,PREFIX,DIFF,FAST_DIFF,PREF
2014-05-10 21:57:51 1607
Hbase MemStoreLAB
关于MemStore的补充 在通过HStore.add向store中添加一个kv时,首先把数据写入到memstore中。这一点没有什么说明; publiclong add(final KeyValue kv) { lock.readLock().lock(); try { returnthis.memstore.add(kv); } fi...
2014-05-10 10:17:45 226
原创 hbase memstorelab
关于MemStore的补充在通过HStore.add向store中添加一个kv时,首先把数据写入到memstore中。这一点没有什么说明;publiclongadd(finalKeyValue kv) {lock.readLock().lock();try{returnthis.memstore.add(kv);}finally{lock.readLock().un
2014-05-10 10:15:46 1122
spark shuffle部分分析
spark shuffle流程分析 回到ShuffleMapTask.runTask函数 现在回到ShuffleMapTask.runTask函数中: override def runTask(context: TaskContext): MapStatus = { 首先得到要reduce的task的个数。 valnumOutputSplits...
2014-05-09 13:37:38 185
原创 spark shuffle过程分析
spark shuffle流程分析回到ShuffleMapTask.runTask函数现在回到ShuffleMapTask.runTask函数中:overridedef runTask(context:TaskContext): MapStatus = {首先得到要reduce的task的个数。valnumOutputSplits=dep.partitioner.num
2014-05-09 13:36:18 3335
Task的执行过程分析
Task的执行过程分析 Task的执行通过Worker启动时生成的Executor实例进行, case RegisteredExecutor(sparkProperties) => logInfo("Successfully registered with driver") // Make this host instead of hostPort ...
2014-05-08 12:32:00 241
原创 Task的执行过程分析
Task的执行过程分析Task的执行通过Worker启动时生成的Executor实例进行,caseRegisteredExecutor(sparkProperties)=>logInfo("Successfullyregistered with driver")//Make this host instead of hostPort ?executor=newExecuto
2014-05-08 12:31:27 3782
Spark中的Scheduler
Spark中的Scheduler scheduler分成两个类型,一个是TaskScheduler与其实现,一个是DAGScheduler。 TaskScheduler:主要负责各stage中传入的task的执行与调度。 DAGScheduler:主要负责对JOB中的各种依赖进行解析,根据RDD的依赖生成stage并通知TaskScheduler执行。 实例生...
2014-05-03 21:23:35 147
原创 Spark中的Scheduler
Spark中的Schedulerscheduler分成两个类型,一个是TaskScheduler与其实现,一个是DAGScheduler。TaskScheduler:主要负责各stage中传入的task的执行与调度。DAGScheduler:主要负责对JOB中的各种依赖进行解析,根据RDD的依赖生成stage并通知TaskScheduler执行。实例生成TaskSchedule
2014-05-03 21:17:30 2247
RDD的依赖关系
RDD的依赖关系 Rdd之间的依赖关系通过rdd中的getDependencies来进行表示, 在提交job后,会通过在 DAGShuduler.submitStage-->getMissingParentStages privatedef getMissingParentStages(stage: Stage): List[Stage] = { va...
2014-05-03 01:39:03 121
原创 RDD的依赖关系
RDD的依赖关系Rdd之间的依赖关系通过rdd中的getDependencies来进行表示,在提交job后,会通过在DAGShuduler.submitStage-->getMissingParentStagesprivatedefgetMissingParentStages(stage: Stage): List[Stage] = {valmissing =newHash
2014-05-03 01:32:19 3201
从wordcount分析spark提交job
从WordCount开始分析 编写一个例子程序 编写一个从HDFS中读取并计算wordcount的例子程序: package org.apache.spark.examples import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ ...
2014-05-02 12:51:37 156
原创 spark 启动job的流程分析
从WordCount开始分析编写一个例子程序编写一个从HDFS中读取并计算wordcount的例子程序:packageorg.apache.spark.examplesimportorg.apache.spark.SparkContextimportorg.apache.spark.SparkContext._objectWordCount{defm
2014-05-02 12:47:18 4558 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人