- 博客(11)
- 资源 (11)
- 收藏
- 关注
原创 海量数据处理方法小结
大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 alibaba 这样的一些涉及到海量数据的互联网公司经常会问到。 下面综合网上的资料和一般的出现的问题。对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨论,共同进步。 google对海量数据的处理总结出三大核心技术: GFS,Map
2010-08-26 09:08:00 782
转载 解剖Twitter:Twitter系统架构设计分析-3
<br /><br />【8】 得过不且过<br />北京西直门立交桥的设计,经常遭人诟病。客观上讲,对于一座立交桥而言,能够四通八达,就算得上基本完成任务了。大家诟病的原因,主要是因为行进路线太复杂。<br />当然,站在设计者角度讲,他们需要综合考虑来自各方面的制约。但是考虑到世界上立交桥比比皆是,各有各的难处,然而像西直门立交桥这样让人迷惑的,还真是少见。所以,对于西直门立交桥的设计者而言,困难是客观存在的,但是改进的空间总还是有的。<br />Figure 10. 北京西直门立交桥行进路线<br /
2010-08-08 12:05:00 991 1
转载 解剖Twitter:Twitter系统架构设计分析-2
<br /> <br />比较有趣的事情是,通常把Varnish部署在Web Server之外,面向Internet的位置。这样,当用户访问网站时,实际上先访问Varnish,读取所需内容。只有在Varnish没有缓存相应内容时,用户请求才被转发到Web Server上去。而Twitter的部署,却是把Varnish放在Apache Web Server内侧[19]。原因是Twitter的工程师们觉得Varnish的操作比较复杂,为了降低Varnish崩溃造成整个网站瘫痪的可能性,他们便采取了这种古怪而且保
2010-08-08 12:02:00 1491
转载 解剖Twitter:Twitter系统架构设计分析-1
<br />这个周末在家学习Twitter的架构设计原理,发现了很多精妙的地方,也验证了之前的很多猜想。<br /> <br /> <br /> <br />随着信息爆炸的加剧,微博客网站Twitter横空出世了。用横空出世这个词来形容Twitter的成长,并不夸张。从2006年5月 Twitter上线,到2007年12月,一年半的时间里,Twitter用户数从0增长到6.6万。又过了一年,2008年12月,Twitter的用 户数达到5百万。[1] <br /><br /> Twitter网站的成功,先
2010-08-08 11:49:00 843
转载 Brewer’s CAP Theorem(2)
<br />最近一直在学习ACID,CAP,BAse等NoSQL思想。下面这批CAP理论文章很不错,分享给大家。<br />原文:http://pt.alibaba-inc.com/wp/dev_related_728/brewers-cap-theorem.html<br /> <br />定理的重要性<br />CAP定理在应用系统规模化时最有效。在低压力的情况下,小的延迟(以便数据库达到一致的状态)还不足以对总体的性能或用户体验造成影响。你所承担的负载分布,可能都是出于系统管理的原因。?<br />但
2010-08-05 17:56:00 1296
转载 Brewer’s CAP Theorem(1)
Amazon和EBay一直在喝的酷爱(kool aid)饮料。by Julian Browne on 2009.1.11 (经Julian授权翻译此文,原文参见)1976年6月4号,周5,在远离音乐会大厅的一个楼上的房间内,在位于Manchester的Lesser Free Trade Hall,Sex Pistols乐队(注:Sex Pistols的经理人Malcolm McLaren 2010.4.8去世)开始了他们的第一次演出(gig,注:规模太小称不上演唱会)。关于当晚谁出席了那场演出有些混乱,部分
2010-08-05 17:54:00 1219 1
原创 NoSQL数据库杂谈
由于工作的原因需要设计一下海量的服务器系统,传统的数据ACID不能那个满足需求了。上周末读了不少NoSQL文章,这里在总结一下。在UGC的海量服务时代,NoSQL技术大有可为。
2010-08-02 15:09:00 607
转载 NoSQL数据库笔谈(4)
<br />周末看的NoSqL文章的第4部分微软之SQL数据服务SQL数据服务 是微软 Azure 网 络服务平台的一部分。该SDS服务也是处于测试阶段,因此也是免费的,但对数据库大小有限制。 SQL数据服务其自身实际上是一项处在许多SQL服务器之上的应用,这些SQL服务器组成了SDS平台底层的数据存储。你不需要访问到它们,虽然底层的数 据库可能是关系式的;SDS是一个键/值型仓储,正如我们迄今所讨论过的其它平台一样。<br /><br />微软看起来不同于前三个供应商,因为虽然键/值存储对于可扩性���言
2010-08-01 21:05:00 5106
转载 NoSQL数据库笔谈(3)
<br />DHT<br />Distributed hash table<br /><br /><br />Map Reduce ExecutionMap Reduce已经烂大街了,不过还是要提一下。<br />参见:http://zh.wikipedia.org/wiki/MapReduce<br /><br /><br /><br />Handling Deletes但我们执行删除操作的时候必须非常谨慎,以防丢失掉相应的版本信息。<br /><br />通常我们给一个Object标注上"已删除"的
2010-08-01 21:03:00 2611
转载 NoSQL数据库笔谈(2)
周末在家读了一系列关于NoSQL的文章,如下,很不错,特转载在我的博客当作。原文:在UGC时代构建海量服务器系统很有参考意义。http://www.yankay.com/wp-content/uploads/2010/02/NoSql%20Database%20Note/万兆以太网 手段篇一致性哈希要求分布式架构的发展说起。第一阶段考虑到单服务器不能承载,因此使用了分布式架构,最初的算法为 hash() mod n, hash()通常取用户ID,n为节点数。此方法容易实现且能够满足运营要求。缺点是当单点发
2010-08-01 20:56:00 708
转载 NoSQL数据库笔谈(1)
周末在家读了一系列关于NoSQL的文章,如下,很不错,特转载在我的博客当作。原文:在UGC时代构建海量服务器系统很有参考意义。http://www.yankay.com/wp-content/uploads/2010/02/NoSql%20Database%20Note/
2010-08-01 20:54:00 983
D语言程序设计 中文文档
2010-05-30
Sed手册
2008-05-23
eMule 0.27c Class Diagram.pdf
2007-11-01
eMule源码分析【体系结构和各个类得详细说明】
2007-10-26
eMule协议规范【中文版本】
2007-10-10
Neo_Mule_v4.25_src.zip
2007-06-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人