自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

隔壁老杨的专栏

关注大数据,hadoop,hbase,spark,姑娘等相关话题

  • 博客(20)
  • 收藏
  • 关注

hadoop ha配置

HADOOP HA配置hadoop2.x的ha配置,此文档中描述有hdfs与yarn的ha配置。此文档的假定条件是zk已经安装并配置完成,其实也没什么安装的。hdfs ha配置首先,先配置core-site.xml配置文件:<property>在老版本中使用mr1时,还可能使用fs.default.name来进行配置  <name>fs...

2014-05-15 20:30:07 198

原创 hadoop-ha配置

HADOOP HA配置hadoop2.x的ha配置,此文档中描述有hdfs与yarn的ha配置。此文档的假定条件是zk已经安装并配置完成,其实也没什么安装的。hdfs ha配置 首先,先配置core-site.xml配置文件:在老版本中使用mr1时,还可能使用fs.default.name来进行配置  fs.defaultFS此处配置的mycluster目前还没

2014-05-15 20:25:05 3679

原创 hadoop-mapreduce中reducetask运行分析

ReduceTask的运行Reduce处理程序中需要执行三个类型的处理,1.copy,从各map中copy数据过来2.sort,对数据进行排序操作。3.reduce,执行业务逻辑的处理。ReduceTask的运行也是通过run方法开始,通过mapreduce.job.reduce.shuffle.consumer.plugin.class配置shuffle的plugin,

2014-05-14 13:30:00 1921

hadoop-mapreduce中reducetask运行分析

ReduceTask的运行 Reduce处理程序中需要执行三个类型的处理, 1.copy,从各map中copy数据过来 2.sort,对数据进行排序操作。 3.reduce,执行业务逻辑的处理。 ReduceTask的运行也是通过run方法开始, 通过mapreduce.job.reduce.shuffle.consumer.plugin.c...

2014-05-14 13:29:25 295

hadoop-mapreduce中maptask运行分析

MapTask运行通过执行.run方法: 1.生成TaskAttemptContextImpl实例,此实例中的Configuration就是job本身。 2.得到用户定义的Mapper实现类,也就是map函数的类。 3.得到InputFormat实现类。 4.得到当前task对应的InputSplit. 5.通过InputFormat,得到对应的Rec...

2014-05-13 12:48:31 133

原创 hadoop-mapreduce中maptask运行分析

MapTask运行通过执行.run方法:1.生成TaskAttemptContextImpl实例,此实例中的Configuration就是job本身。2.得到用户定义的Mapper实现类,也就是map函数的类。3.得到InputFormat实现类。4.得到当前task对应的InputSplit.5.通过InputFormat,得到对应的RecordReader。6.生成Re

2014-05-13 12:42:03 2724

hbase hfilev2文件

HFileV2文件 HFileV2文件写入通过StoreFile.Writer-->HFileWriterV2进行写入。 文件格式通过hfile.format.version配置。默认为2,也只有2这个值在0.96可用。 可通过cf中配置DATA_BLOCK_ENCODING配置dataBlock的encoding,  可配置值:NONE,PREFIX...

2014-05-10 21:58:16 122

原创 hbase hfilev2

HFileV2文件HFileV2文件写入通过StoreFile.Writer-->HFileWriterV2进行写入。文件格式通过hfile.format.version配置。默认为2,也只有2这个值在0.96可用。可通过cf中配置DATA_BLOCK_ENCODING配置dataBlock的encoding,可配置值:NONE,PREFIX,DIFF,FAST_DIFF,PREF

2014-05-10 21:57:51 1589

Hbase MemStoreLAB

关于MemStore的补充 在通过HStore.add向store中添加一个kv时,首先把数据写入到memstore中。这一点没有什么说明; publiclong add(final KeyValue kv) { lock.readLock().lock(); try { returnthis.memstore.add(kv);  } fi...

2014-05-10 10:17:45 213

原创 hbase memstorelab

关于MemStore的补充在通过HStore.add向store中添加一个kv时,首先把数据写入到memstore中。这一点没有什么说明;publiclongadd(finalKeyValue kv) {lock.readLock().lock();try{returnthis.memstore.add(kv);}finally{lock.readLock().un

2014-05-10 10:15:46 1102

spark shuffle部分分析

spark shuffle流程分析 回到ShuffleMapTask.runTask函数 现在回到ShuffleMapTask.runTask函数中:  override def runTask(context: TaskContext): MapStatus = { 首先得到要reduce的task的个数。 valnumOutputSplits...

2014-05-09 13:37:38 162

原创 spark shuffle过程分析

spark shuffle流程分析回到ShuffleMapTask.runTask函数现在回到ShuffleMapTask.runTask函数中:overridedef runTask(context:TaskContext): MapStatus = {首先得到要reduce的task的个数。valnumOutputSplits=dep.partitioner.num

2014-05-09 13:36:18 3319

Task的执行过程分析

Task的执行过程分析 Task的执行通过Worker启动时生成的Executor实例进行, case RegisteredExecutor(sparkProperties) =>  logInfo("Successfully registered with driver") // Make this host instead of hostPort ...

2014-05-08 12:32:00 225

原创 Task的执行过程分析

Task的执行过程分析Task的执行通过Worker启动时生成的Executor实例进行,caseRegisteredExecutor(sparkProperties)=>logInfo("Successfullyregistered with driver")//Make this host instead of hostPort ?executor=newExecuto

2014-05-08 12:31:27 3759

Spark中的Scheduler

Spark中的Scheduler scheduler分成两个类型,一个是TaskScheduler与其实现,一个是DAGScheduler。 TaskScheduler:主要负责各stage中传入的task的执行与调度。 DAGScheduler:主要负责对JOB中的各种依赖进行解析,根据RDD的依赖生成stage并通知TaskScheduler执行。 实例生...

2014-05-03 21:23:35 133

原创 Spark中的Scheduler

Spark中的Schedulerscheduler分成两个类型,一个是TaskScheduler与其实现,一个是DAGScheduler。TaskScheduler:主要负责各stage中传入的task的执行与调度。DAGScheduler:主要负责对JOB中的各种依赖进行解析,根据RDD的依赖生成stage并通知TaskScheduler执行。实例生成TaskSchedule

2014-05-03 21:17:30 2225

RDD的依赖关系

RDD的依赖关系 Rdd之间的依赖关系通过rdd中的getDependencies来进行表示, 在提交job后,会通过在 DAGShuduler.submitStage-->getMissingParentStages privatedef getMissingParentStages(stage: Stage): List[Stage] = { va...

2014-05-03 01:39:03 106

原创 RDD的依赖关系

RDD的依赖关系Rdd之间的依赖关系通过rdd中的getDependencies来进行表示,在提交job后,会通过在DAGShuduler.submitStage-->getMissingParentStagesprivatedefgetMissingParentStages(stage: Stage): List[Stage] = {valmissing =newHash

2014-05-03 01:32:19 3184

从wordcount分析spark提交job

从WordCount开始分析 编写一个例子程序 编写一个从HDFS中读取并计算wordcount的例子程序: package org.apache.spark.examples   import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ ...

2014-05-02 12:51:37 138

原创 spark 启动job的流程分析

从WordCount开始分析编写一个例子程序编写一个从HDFS中读取并计算wordcount的例子程序:packageorg.apache.spark.examplesimportorg.apache.spark.SparkContextimportorg.apache.spark.SparkContext._objectWordCount{defm

2014-05-02 12:47:18 4546 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除