hadoop源码反思-1

在阅读hadoop源码中,感触最深的有以下几个

1.状态机,以消息顺序图来作为触发和hadoop运行的条件;
2.protocolbuffer engine,将主要运行的函数和代码,比如server端的功能序列化,消息化,字段化,可以动态进行生成,这就很6了;

3.构件模块化,功能分割的很不错,hdfs,还有业务逻辑运行时的通用部件和自定义的都留有接口(在状态机上留了),使得各种部件,比如spark,storm等可以作为计算插件衔接到yarn上,还有在mapreduce部分的每个阶段都留有接口,可以进行自定义实现,还有针对业务,和mr1.x的局限性进行了很多优化,比如借用其他函数和过程来充当mr的功能函数,还有chain等,使复杂和迭代mr得到优化;

4.RPC,rpc也可以说是在里面无处不在了,作为集群,作为分布式计算来说是基础,结合了前三条使得RPC可以安全,健壮,可靠的运行,还有里面的代理,io等,看完之后真的很佩服创建hadoop人的智慧;

在作业运行中,分布式计算时有一个很重要的,就是job,也可以说是conf,context,这三者是包含关系,每个节点从这里面获得上下文,获得功能函数,数据位置等;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值