自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(11)
  • 资源 (11)
  • 收藏
  • 关注

原创 海量数据处理方法小结

大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 alibaba 这样的一些涉及到海量数据的互联网公司经常会问到。 下面综合网上的资料和一般的出现的问题。对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨论,共同进步。 google对海量数据的处理总结出三大核心技术: GFS,Map

2010-08-26 09:08:00 782

转载 解剖Twitter:Twitter系统架构设计分析-3

<br /><br />【8】 得过不且过<br />北京西直门立交桥的设计,经常遭人诟病。客观上讲,对于一座立交桥而言,能够四通八达,就算得上基本完成任务了。大家诟病的原因,主要是因为行进路线太复杂。<br />当然,站在设计者角度讲,他们需要综合考虑来自各方面的制约。但是考虑到世界上立交桥比比皆是,各有各的难处,然而像西直门立交桥这样让人迷惑的,还真是少见。所以,对于西直门立交桥的设计者而言,困难是客观存在的,但是改进的空间总还是有的。<br />Figure 10. 北京西直门立交桥行进路线<br /

2010-08-08 12:05:00 991 1

转载 解剖Twitter:Twitter系统架构设计分析-2

<br /> <br />比较有趣的事情是,通常把Varnish部署在Web Server之外,面向Internet的位置。这样,当用户访问网站时,实际上先访问Varnish,读取所需内容。只有在Varnish没有缓存相应内容时,用户请求才被转发到Web Server上去。而Twitter的部署,却是把Varnish放在Apache Web Server内侧[19]。原因是Twitter的工程师们觉得Varnish的操作比较复杂,为了降低Varnish崩溃造成整个网站瘫痪的可能性,他们便采取了这种古怪而且保

2010-08-08 12:02:00 1491

转载 解剖Twitter:Twitter系统架构设计分析-1

<br />这个周末在家学习Twitter的架构设计原理,发现了很多精妙的地方,也验证了之前的很多猜想。<br /> <br /> <br /> <br />随着信息爆炸的加剧,微博客网站Twitter横空出世了。用横空出世这个词来形容Twitter的成长,并不夸张。从2006年5月 Twitter上线,到2007年12月,一年半的时间里,Twitter用户数从0增长到6.6万。又过了一年,2008年12月,Twitter的用 户数达到5百万。[1] <br /><br />  Twitter网站的成功,先

2010-08-08 11:49:00 843

转载 Brewer’s CAP Theorem(2)

<br />最近一直在学习ACID,CAP,BAse等NoSQL思想。下面这批CAP理论文章很不错,分享给大家。<br />原文:http://pt.alibaba-inc.com/wp/dev_related_728/brewers-cap-theorem.html<br /> <br />定理的重要性<br />CAP定理在应用系统规模化时最有效。在低压力的情况下,小的延迟(以便数据库达到一致的状态)还不足以对总体的性能或用户体验造成影响。你所承担的负载分布,可能都是出于系统管理的原因。?<br />但

2010-08-05 17:56:00 1296

转载 Brewer’s CAP Theorem(1)

Amazon和EBay一直在喝的酷爱(kool aid)饮料。by Julian Browne on 2009.1.11 (经Julian授权翻译此文,原文参见)1976年6月4号,周5,在远离音乐会大厅的一个楼上的房间内,在位于Manchester的Lesser Free Trade Hall,Sex Pistols乐队(注:Sex Pistols的经理人Malcolm McLaren 2010.4.8去世)开始了他们的第一次演出(gig,注:规模太小称不上演唱会)。关于当晚谁出席了那场演出有些混乱,部分

2010-08-05 17:54:00 1219 1

原创 NoSQL数据库杂谈

由于工作的原因需要设计一下海量的服务器系统,传统的数据ACID不能那个满足需求了。上周末读了不少NoSQL文章,这里在总结一下。在UGC的海量服务时代,NoSQL技术大有可为。

2010-08-02 15:09:00 607

转载 NoSQL数据库笔谈(4)

<br />周末看的NoSqL文章的第4部分微软之SQL数据服务SQL数据服务 是微软 Azure 网 络服务平台的一部分。该SDS服务也是处于测试阶段,因此也是免费的,但对数据库大小有限制。 SQL数据服务其自身实际上是一项处在许多SQL服务器之上的应用,这些SQL服务器组成了SDS平台底层的数据存储。你不需要访问到它们,虽然底层的数 据库可能是关系式的;SDS是一个键/值型仓储,正如我们迄今所讨论过的其它平台一样。<br /><br />微软看起来不同于前三个供应商,因为虽然键/值存储对于可扩性���言

2010-08-01 21:05:00 5106

转载 NoSQL数据库笔谈(3)

<br />DHT<br />Distributed hash table<br /><br /><br />Map Reduce ExecutionMap Reduce已经烂大街了,不过还是要提一下。<br />参见:http://zh.wikipedia.org/wiki/MapReduce<br /><br /><br /><br />Handling Deletes但我们执行删除操作的时候必须非常谨慎,以防丢失掉相应的版本信息。<br /><br />通常我们给一个Object标注上"已删除"的

2010-08-01 21:03:00 2611

转载 NoSQL数据库笔谈(2)

 周末在家读了一系列关于NoSQL的文章,如下,很不错,特转载在我的博客当作。原文:在UGC时代构建海量服务器系统很有参考意义。http://www.yankay.com/wp-content/uploads/2010/02/NoSql%20Database%20Note/万兆以太网 手段篇一致性哈希要求分布式架构的发展说起。第一阶段考虑到单服务器不能承载,因此使用了分布式架构,最初的算法为 hash() mod n, hash()通常取用户ID,n为节点数。此方法容易实现且能够满足运营要求。缺点是当单点发

2010-08-01 20:56:00 708

转载 NoSQL数据库笔谈(1)

周末在家读了一系列关于NoSQL的文章,如下,很不错,特转载在我的博客当作。原文:在UGC时代构建海量服务器系统很有参考意义。http://www.yankay.com/wp-content/uploads/2010/02/NoSql%20Database%20Note/

2010-08-01 20:54:00 983

D语言程序设计 中文文档

什么是 D 语言? D 是一种通用的系统和应用编程语言。它是比C++更高级的语言,同时还保持了生成高效代码以及直接访问操作系统API和硬件的能力。D 很适合于编写从中等规模到那些由团队合作完成、数百万行代码规模的各种程序。D 易于学习,为编程者提供了很多便利,并且适用各种野心勃勃的编译器优化技术。 D 不是脚本语言,也不是一种解释型语言。它不需要虚拟机、宗教、或者高于一切的哲学。它是给实际的编程者使用的实际的语言,它帮助编程者快速、可靠的完成易于维护、易于理解的代码。 D 是数十年来实现多种语言编译器的经验的积累,是用这些语言构造大型工程的尝试的积累。D 从那些语言(主要是 C++ )那里获得了灵感,并将用经验和现实世界中的实用性来

2010-05-30

Sed手册

SED 手册中央研究院计算中心 ASPAC 计划(刘刚 2008年5月7号 整理 ganghust@gmail.com)aspac@phi.sinica.edu.tw 技术报告: 96005 1996年12月1日 Version:1.0SED 手册 11.Introduction 21.1 何时使用 sed 31.2 何处获得 sed 31.3 sed 能做那些编辑动作 31.4 sed 如何工作 32使用 sed 42.1.执行命令列上的编辑指令 42.2 sed 的编辑指令 42.3 执行档案内的编辑指令 62.4 执行多个文件檔的编辑 62.5.执行输出的控制 73.范例 73.1 替换文件中的数据 73.2 搬动文件中的数据 83.3 删除文件中的数据 93.4 搜寻文件中的数据 94介绍函数参数 104.1 s 104.2 d 114.3 a 114.4 i 124.5 c 134.6 p 134.7 l 134.8 r 134.9 w 144.10 y 144.11 ! 154.12 n 154.13 q 154.14 = 164.15 # 164.16 N 164.17 D 174.18 P 174.19 h 184.20 H 184.21 g 184.22 G 184.23 x 194.24 b、:label 194.25 t 20批注 22

2008-05-23

重构.pdf[电子书]

重构,这本书的电子版本,pdf格式

2008-05-10

KDB内核调试手册

KDB内核调试手册和相关的技巧

2007-12-11

eMule 0.27c Class Diagram.pdf

eMule 0.27c Class Diagram.pdf,对eMule源代码的体系结构和类图有详细的介绍,对理解eMule的源码很有帮助

2007-11-01

Google文件系统论文【英文版】

Google文件系统论文【英文版】详细介绍Google文件系统的设计原理

2007-11-01

eMule源码分析【体系结构和各个类得详细说明】

eMULE源码分析:已经查看的源代码的版本包括:1。eMule 0.42b VeryCD0229 2。eMule(电骡) v0.45b 源码3。eMule0.47a-Sources4。eMule0.47b-Sources5。eMule-0.47c-VeryCD1215-Src从0。42B到0。47版本主要增强和修改的地方包括:(1)Web管理功能的增强;(2)对服务器探测时间参数的优化;(3)客户端上传队列的过程进行了优化:排队机制和规则上的修改;(4)文件缓存cache部分改进;(5)KAD网络中搜索功能的改进;源代码版本:0.47cVeryCD版eMULE源码分析 11目录结构: 12 Src\目录下代码结构 23重要的功能子类 24TCP和UDP网络通迅过程详细介绍: 65eMule中信誉机制的实现 86下载如上传任务及队列的详细说明: 87 其他辅助功能类的说明: 10 8 协议通迅过程的主要约定如下: 11附录 一ED2K通迅报文处理细节: 11附录二 eMule中KAD网络的说明 15附录: eMule中内容发布或者搜索 19

2007-10-26

eMule协议规范【中文版本】

最近一直在研究eMule协议,从网上搜集了和整理,修改翻译了一分详细的说明文档。<br>eMule协议规范<br>本文档翻译自:<br>Yoram Kulbak and Danny Bickson 《The eMule Protocol Specification》

2007-10-10

Neo_Mule_v4.25_src.zip

eMule(电骡)想必大家都知道,这个开源软件拥有不亚于BT的用户群。而 Neo Mule 是 eMule 的 Mod 版本,其作者为德国人 David Xanatos,适用于所有 eMule 用户,特别是上传者与 LowID 用户。此 Mod 的 Logo 非常有趣,是一个穿风衣戴墨镜的骡子,大家应该看着都眼熟,:-),想必这也是作者起名 Neo 的原因。本 Mod 相对原版电骡有着更加详细的设置内容和许多有用的辅助功能,包括 Voodoo、Lancast 等特有功能。同时也支持 NAT 转发、UPnP,内网用户优化等等。对上传、下载文件的细节处理也比较人性化,提供了多种设置。除此之外屏蔽吸血骡的 Argos 功能也是所有 Mod 中最完善的。程序支持各种自定义界面的方式,拥有极高的美观度,内存占用也是同类骡子中很低的 Mod,同时支持名为 MiniMule 的下载状态悬浮条,让你对程序状态一目了然。另外还支持手动设置缓存。

2007-06-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除