lance家园

有事不慌,无事不荒,有容乃大,无欲则刚,以德立纲,外圆内方。

流式计算框架

流式计算框架 S4 S4会将数据里的每一条记录包装成event事件,每个事件是一个KV对,同时有eventType来标示这个事件的类型。 PE是S4中的基本运算单元。每个PE只负责处理自己所关心的eventtype,并且只处理自己所对应的key值的event。PE处理后可能

2011-09-02 10:25:03

阅读数 4321

评论数 0

最近在做的一些事情

Normal 0 7.8 磅 0 2 false false false EN-US ZH-CN X-NONE

2011-06-19 01:12:00

阅读数 2005

评论数 0

Hbase中结果合并的分析

当client向hregion端put()数据时,HRegion会判断当前的memstore的大小是否大于参数hbase.hregion.memstore.flush.size值,如果大于,则执行flushcache()操作,将hregion上的memstore刷新到store files文件里。...

2011-05-24 23:57:00

阅读数 4001

评论数 0

hadoop中rpc的具体实现:

还是一年前看过rpc模块,今天回头去复习了一下,发现有一些小小的改动,增加了一些接口,比如RPCEngine。还增加了对socket一些参数的配置,比如时间设置等。但总体思路基本没有变,关键就是下面几个点。1.         java中有代理类这样的机制,即只需要知道类名和方法名,即可以通过这...

2011-04-24 20:45:00

阅读数 2112

评论数 0

数据复制的几种方案

     清明节,居然下雨,正好有时间看电影,在youku上把将爱看完了。 先留个位置,抛出几个点来,以便以后补充。最近一阵子时间,看了hbase,tair,redis项目的代码,加上之前的一些积累,在数据复制上这几个项目有些不同,其中hbase与hadoop是一样的,redis与tai...

2011-04-03 11:36:00

阅读数 1845

评论数 0

总结最近一阵子忙的事情

<br />      回家过了个春节,春节期间去了趟广东,跟昔日的同学碰了个头,同时也跟TX公司的同学交流了一下,他们那边在分布式存储与计算的内容,同时了解了他们的集群规模及处理方式等等。<br />      前段时间,除了完成公司的项目需求外,大致过了一下redis,...

2011-03-12 11:33:00

阅读数 2121

评论数 5

集群工具chukwa和ganglia

<br /><br />众所周知,hadoop是运行在分布式的集群环境下,同是是许多用户或者组共享的集群,因此任意时刻都会有很多用户来访问NN或者JT,对分布式文件系统或者mapreduce进行操作,使用集群下的机器来完成他们的存储和计算工作。当使用hadoop的用户越来越...

2011-01-23 00:32:00

阅读数 3392

评论数 1

hadoop io Sequence, Map, Set, Array, BloomMap Files(译文)

原文:http://www.cloudera.com/blog/2011/01/hadoop-io-sequence-map-set-array-bloommap-files/         hadoop的sequenceFile文件为二进制的K-V对提供了可持久的数据结构。与其他的数据结构...

2011-01-18 19:06:00

阅读数 2350

评论数 0

DataNode的分析

<br /><br />相对NN,DN主要就是对数据块的副本进行操作,如增删改等操作,管理DN中的这些副本,另外提供对副本的接口给client,NN,其他的DN。<br />startDataNode()方法:<br />首先从配置文件中读取与DN ...

2011-01-15 22:39:00

阅读数 2818

评论数 0

datanode中的类结构图

之前大致把DN中的主要类代码看了一下,框架基本了解,刚才用VS简单的把类图模块画了一下,整理自已的思路。涉及比较多的是副本的传输和副本的管理二大块内容。

2011-01-14 20:28:00

阅读数 1826

评论数 0

datanode进程的分析(一)

数据存储结点主类。首先启动一系列服务端口,如接收数据的端口,web server 访问端口等。然后调用startDataNode() 函数去做以下事情。启动DN的数据接收服务守护线程DataXceiverServer。循环判断是否需要更新,如参数发生变化了,则需要重新初始化DN。然后再发送心跳...

2011-01-08 13:20:00

阅读数 2342

评论数 0

hdfs中的NameNode,SecondaryNameNode,BackupNode

NameNode:暂且叫它为元数据结点。它实现了NamenodeProtocols 中的接口,而该接口分别有三个父类:ClientProtocol,与客户端的通信。DatanodeProtocol,与DN 的通信。NamenodeProtocol,与BN ,SNN 的通信。主要有二大功能:...

2011-01-03 21:25:00

阅读数 3504

评论数 0

2010年总结

      2010年是我从学校到公司的第一个年头,7月份离开学校踏入工作,开始有很多的不适应,其间心理的苦唯有自已知道,但是不管如何,也算熬过了2010年,收获谈不上,算是体验生活吧。架构设计       前不久的一个小项目,让我感受到了架构设计的重要性,tim里面有句话:架构师要有完美心态,今...

2011-01-01 11:36:00

阅读数 2159

评论数 3

初次与erlang见面

学习分布式相关知识也有一年多了,最早是从hadoop开源项目开始,在几个月前打算学习erlang,但是由于时间关系,一直没有进行,也买了那本经典erlang的E文书,昨天把书过了一遍,在网上找了些文档,安装了一下开发环境,以及运行了一些简单实例,有一种想见恨晚的感觉,接下来的学习列表会多加一个东西...

2010-12-26 15:37:00

阅读数 2038

评论数 0

Capacity Scheduler and Dynamic Scheduler

CapacityTaskScheduler链接:http://hadoop.apache.org/common/docs/r0.19.2/capacity_scheduler.htmlhttp://hadoop.apache.org/common/docs/r0.20.2/capacity_sch...

2010-12-21 22:36:00

阅读数 2093

评论数 0

hadoop中的streaming和pipes

Streaming应用程序在提交streaming  job的命令样例,需要指定JAR包以及相应的参数值。$HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/hadoop-streaming.jar /    -input myInputDirs / ...

2010-12-11 18:10:00

阅读数 3593

评论数 4

FairScheduler(公平调度器)的源码阅读

FairScheduler是hadoop中的作业公平调度器,主要是解决当TT发送心跳告诉JT当前的空闲slots时,希望JT分配给TT相应多个task,让TT去执行这些task。所以JT就需要一个调度器来对作业进行调度,选择出作业,然后将作业的task分配TT去执行。而hadoop中的task可以...

2010-12-05 14:52:00

阅读数 3958

评论数 0

mapreduce中jobtracker进程的分析

对于JobTracker来说,主要做的事情有:与客户端的通信:接收客户端的命令,如提交job,kill job。接收TaskTracker心跳:为TT分配Task任务队列,更新task状态,以及监测TT的状态。内部处理操作:对job进行初始化,分解成多个map,reduce task任务。对许多...

2010-11-28 15:17:00

阅读数 5428

评论数 0

hiveql的执行过程

     周末花了点时间,结合以前看的,大体看了一下Hive源码,主要包括客户/服务器通信,语法解析器,语义分析器,逻辑计划生成器,计划优化器,物理计划生成器,物理计划执行器等部分。分别由包parse,plan, optimizer, Exec中的代码来实现的。       Hive是将SQL...

2010-10-17 22:23:00

阅读数 2828

评论数 0

Hdfs-Raid tools文档翻译

<br /><br />      国庆放假7天,花了二天时间搬家,花了二天时间去绍兴,接下来这三天用来学习,这几周比较忙,加班比较多,手头上有几个task,因此没有及时更新blog,但是不管再忙,都一定要花时间来学习,上周javaone大会结束了,看了毕玄等同学的分享,j...

2010-10-05 21:30:00

阅读数 2525

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭