分布式系统(Distributed System)
文章平均质量分 71
historyasamirror
爱机器,爱学习。
三年的NLP经验,期间涉及Machine Learning,Data Mining,骨子里由衷的喜欢;
正在做分布式,感觉自己很幸运,这个领域一定大有可为;
关注User Study,学会从用户的角度看技术;
展开
-
Google利器之Google Cluster
最近花了不少功夫在Google发布的这些文章上。Google这几年发布了不少的论文来介绍它底层分布式的计算平台,其中最重要的有5篇,其中包括了大名鼎鼎的MapReduce,GFS,也有不那么出名的chubby:GoogleCluster: http://research.google.com/archive/googlecluster.html Chubby:http://labs.googl原创 2009-02-03 22:33:00 · 13904 阅读 · 3 评论 -
异步机制(Asynchronous) -- (一)开篇兼谈Mina
之前写了篇blog专门探讨异步/同步IO,但那只涉及了网络的IO。这段时间看了很多System方面的论文,且也在设计一个System,再加上最近刚用Mina实现了一个异步消息交互的模块。因此,将这段时间的心得记录下来,可能有些杂,希望能够有人喜欢看。所谓同步,简单的说,A告诉B去做某件事情,然后就一直等待,直到B做完后返回给A,A才继续做其它的事情;所谓异步,相反的,A告诉B做某件事情,然后就去干其它的事情了,B做完后再通知A。无论是同步还是异步,其实都是指两个对象之间的交互。所以,判断什么是同原创 2011-01-22 23:16:00 · 19589 阅读 · 11 评论 -
推荐 -- 《分布式系统的工程化开发方法》
<br />自打google将它的MapReduce,GFS等等发布之后,分布式系统这个概念这几年是越发的红火了。当然,这也和大量的海量数据处理的需求息息相关。于是乎,越来越多的分布式专家也如雨后春笋般冒了出来。我曾经也以非常仰慕的心情去拜读某些专家写出来的文章,结果发现这帮家伙无非是做过一些机器间的服务调用(比如SOAP),要么就是配置过load balancer,做过负载均衡,高级些的就拿distributed hash table这样的东西做过多台机器的key-value store或者分布式cach原创 2010-10-29 12:01:00 · 4044 阅读 · 3 评论 -
Google放弃MapReduce ?
<br />前两天CSDN的大标题有些吓人“google 放弃MapReduce”。<br />我找到原文浏览一番,其实并不是google不用MapReduce了,而是google在web indexing中已经放弃了MapReduce。<br />看起来很意外,其实大势所趋。<br />MapReduce说到底是一个batch processing system(批处理系统),“you can't start your next phase of operations until you fi原创 2010-09-24 10:52:00 · 6288 阅读 · 0 评论 -
Distributed Key-Value Database
在公司曾经做过一个关于non-relational database的报告,也曾打算写一篇类似的文章。不过由于人懒加手懒,一拖再拖。导致的结果就是,今天发现这篇文章之后,有如释重负之感,知道自己没必要再写了。转载的这篇文章貌似是个台湾人,文章写于去年,算是非常新鲜。文章写得其实算是很简略的,但是脉络清晰,尤其是其中的引文都算是这方面很重要的文章,对这个话题有兴趣的同仁应该通读。比如这篇“My Th转载 2010-01-24 21:09:00 · 2771 阅读 · 0 评论 -
hypertable所依赖的那些库 ...
google的那个三件套(mapreduce, bigtable, gfs)现在已经很流行了,相应的开源项目也是层出不穷,其中以hadoop最出名。不过大部分的项目都是基于java实现的,对于我这个java门外汉并不能有太大帮助。hypertable是为数不多的基于C++的项目,它的参照物是bigtable,而且还是百度赞助的哦。本着支持国货的精神,俺把它的代码down下来了,今天只看了个re原创 2009-08-05 17:06:00 · 2318 阅读 · 0 评论 -
Relational DB vs. Key-Value store
在我还在上学的时候,key-value这个词更多的还是和hash表联系在一起的。而现在,当我看见key-value这个词,马上联想到的就是BigTable,SimpleDB和云计算。当下,key-value store(或者叫key-valueDatabase,云存储等等)是个非常时髦的词汇,越来越多的开发人员(特别是互联网企业)开始关注和尝试key-value的存储形式。这年头如果你还和原创 2009-04-29 11:32:00 · 14071 阅读 · 6 评论 -
Erlang节点的连接
副标题:《Programming Erlang》第十章 分布式编程 读书笔记题外话:很久没更新blog了,前阵子又是工作忙,又是要考试,实在没精力写blog。倒是攒了不少材料,以后慢慢添吧。这章最重要的内容就是erlang中两个节点之间的连接规则。同一台机器上的两个节点之间的连接很简单,直接照着书上做就行了,比较麻烦的是不同机器之间节点的连接。书中的部分代码我测试的结果是错的,原创 2009-04-28 11:34:00 · 7087 阅读 · 0 评论 -
Google利器之MapReduce
参考文献:[1] Google MapReduce [2] MapReduce: A major step backwards [3] MapReduce: 一个巨大的倒退[4] http://en.wikipedia.org/wiki/MapReduce [5] Hadoop 前言MapReduce在当下绝对是IT技术界的一个热词,在网上,随便搜索一下就能原创 2009-02-16 14:45:00 · 12948 阅读 · 10 评论 -
Google利器之Chubby
写完了Google Cluster,该轮到Chubby了。参考文献:[1] The Chubby lock service for loosely-coupled distributed systems [2] Paxos Made Simple 声明文中大部分的观点来自于文献[1]中的描述,但也夹杂了部分本人自己的理解,所以不能保证本文的正确性。真想深入了解Chubby还是好好读原版原创 2009-02-09 11:37:00 · 69358 阅读 · 21 评论 -
Hadoop源代码的边角料:HDFS的数据通信机制
这阵子花了点时间读了读HDFS的源代码。有所得。不过网上关于Hadoop源代码的解析已经挺多了,所以自称为“边角料”,也就是一些零散的心得和想法。简单而言,HDFS分为了三个部分:NameNode,处于master的地位,维护了数据在DataNode上的分布情况,并且,还要负责一些调度任务;DataNode,存储真实数据的地方;DFSClient,一个client端,通过它提供的接口访问NameNode和DataNode;三者之间的通信全部是基于TCP/Socket; 如图所示:图中,连原创 2011-03-27 16:29:00 · 8469 阅读 · 7 评论