自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

半道出家的和尚

技术是一种美...

  • 博客(59)
  • 收藏
  • 关注

原创 eBay架构的思想金矿

     了解一件事情是怎么做的一个正确的方式是看看它在现实中是怎么做的。软件工业一直以来都在为"很多idea仅仅在理论上说说"所困惑。与此同时,软件厂商不断地把这些idea作为最佳实践推销给大家。        很少的软件开发者亲眼目睹过大规模可扩展的架构这一领域。幸运的是,有时我们可以看到和听到关于这方面公开发表的资料。我读过一些好的资料关于 google的硬件基础设施的设计以及yahoo的页

2008-02-28 18:15:00 805

原创 一天十亿次的访问-采用Core J2EE Pattern架构的J2EE 系统

目标:通过本文,学习如何采用Core J2EE Patterns架构具有高度扩展性多层的J2EE应用。 作者:Deepak Alur- Senior Software Architect, SunPS program- Co-author of Core J2EE Patterns- Sun-eBay V3 Architecture—Team leader Ar

2008-02-28 18:13:00 1117

原创 eBay 的数据量

作为电子商务领头羊的 eBay 公司,数据量究竟有多大? 很多朋友可能都会对这个很感兴趣。在这一篇 Web 2.0: How High-Volume eBay Manages Its Storage(从+1 GB/1 min得到的线索) 报道中,eBay 的存储主管 Paul Strong 对数据量做了一些介绍,管中窥豹,这些数据也给我们一个参考。站点处理能力平均每天的 PV 超过 10 亿 ; 

2008-02-28 01:01:00 885

原创 中国门户网站架构分析

首先声明,下面的内容都是我个人根据一些工具形成的猜想。并不保证和现实中各大门户网站所用的架构一摸一样,不过我认为八九不离十了。 网易、新浪和搜狐在国内的知名 度可谓无人不知无人不晓。他们每天的点击率都在千万以上。这样大的访问量对于网易、搜狐等来说怎样利用有限的资源让网民获得最快的速度成

2008-02-28 00:58:00 1175

原创 eBay 的数据库分布扩展架构

在过去的 Blog 中, 我(插一嘴:这里的"我" 如果替换成 "Fenng" 似乎有些自恋, 也不是我喜欢的行文语气, 可发现转贴不留名的行为太多了,他大爷的)曾经介绍过 《eBay 的应用服务器规模》 , 也介绍过 《eBay 的数据量》,在这篇文章中提到过 "eBay 购买了 Quest Share Plex 全球 Licence 用于数据复制",这个地方其实没有说开来。对于 eBa

2008-02-28 00:55:00 856

原创 高并发高流量网站架构

摘 要 Web2.0的兴起,掀起了互联网新一轮的网络创业大潮。以用户为导向的新网站建设概念,细分了网站功能和用户群,不仅成功的造就了一大批新生的网站,也极大的方便了上网的人们。但Web2.0以用户为导向的理念,使得新生的网站有了新的特点——高并发,高流量,数据量大,逻辑复杂等,对网站建设也提出了新的要求。 本文围绕高并发高流量的网站架构设计问题,主要研究讨论了以下内容: 首先在整个网络

2008-02-28 00:54:00 3602

原创 YouTube 的架构扩展

在西雅图扩展性的技术研讨会上,YouTube 的 Cuong Do 做了关于 YouTube Scalability 的报告。视频内容在 Google Video 上有(地址),可惜国内用户看不到。Kyle Cordes 对这个视频中的内容做了介绍。里面有不少技术性的内容。值得分享一下。(Kyle Cordes 的介绍是本文的主要来源)简单的说 YouTube 的数据流量, "一天的Y

2008-02-28 00:53:00 773

原创 学习 Flickr 的 基于 LAMP 的容量规划经验

最近其实发现了不少可以和大家一起学习的好内容。Flickr 的 John Allspaw 在 MySQL Conf 2007 作了一个题为 Capacity planning for LAMP (下载PDF文件) 的技术报告,说起容量规划,多少有点空对空的意思,不过这个 PPT 还是介绍了不少 Flickr 的网站运维经验。Flickr 的数据量的确越来越惊人了,根据文档中透漏的数据:Sq

2008-02-28 00:52:00 725

原创 Second Life 的数据拾零

Matrix 似乎提前来到我们身边。从 06 年开始,陆续看到多次关于 Second Life(SL) 的报道。因为自己的笔记本跑不起来 SL 的客户端,所以一直没有能体会这个虚拟世界的魅力。今天花了一点时间,读了几篇相关的文档。RealNetworks 前 CTO Philip Rosedale 通过 Linden 实验室创建了 Second Life,2002 年这个项目开始 Alph

2008-02-28 00:51:00 602

原创 提高页面访问速度

速度是用户体验非常重要的一部分。如果说用户体验可以分成“能用、可用、好用”,“能用”就是后两者的基础。大部分用户往往会死等一个网页出来,而很少会同时做其他事情。没有速度,如何向用户展示流程,如何带给用户进一步的体验呢?Yahoo! Exceptional Performance团队在Developer Network上总结:80-90%的客户端响应时间都用于下载所有的页面元素:图片、样式表

2008-02-28 00:49:00 640

原创 FeedBurner:基于MySQL和JAVA的可扩展Web应用

 FeedBurner(以下简称FB,呵呵)我想应该是大家耳熟能详的一个名字,在国内我们有一个同样的服务商,叫做FeedSky。在2004年7月 份,FB的流量是300kbps,托管是5600个源,到2005年4月份,流量已经增长到5Mbps,托管了47700个源;到2005年9月份流量增 长到20M,托管了109200个源,而到2006年4月份,流量已经到了115Mbps,270000个源,每天

2008-02-28 00:47:00 551

原创 亿万用户网站MySpace的成功秘密

高速增长的访问量给社区网络的技术体系带来了巨大挑战。MySpace的开发者多年来不断重构站点软件、数据库和存储系统,以期与自身的成长同步——目 前,该站点月访问量已达400亿。绝大多数网站需要应对的流量都不及MySpace的一小部分,但那些指望迈入庞大在线市场的人,可以从MySpace的 成长过程学到知识。    用户的烦恼  Drew,是个来自达拉斯的17岁小伙子,在他的MySpace个人资料页

2008-02-28 00:45:00 855

原创 Hotmail运维:管理超大型服务的挑战

现状:Hotmail目前拥有遍及全球的一万多台服务器,每天处理数十亿的电子邮件事务,存储量数千兆兆(PB),总共聘用不到100名系统管理员进行管理工作。    在增加服务器数量的同时保持管理人员人数不变,即可管理性也是一项挑战。    数据移植需要考虑复杂的性能规划、数据中心空间以及能源消耗问题。    自行构建的管理工具包括部署、度量标准收集、赁单记录、故障跟踪、代码覆盖、监控、编目、故障检测和

2008-02-28 00:45:00 599

原创 细观Google全面大揭秘

详细内容,欢迎进入<a href=http://www.kankanblog.com/read.php/142.htmtarget=_blank target=_blank>侃侃播客 查看. 关键字:SEO,SEO道德规范<fontcolor=red>描述:SEO探索之SEO道德规范。SEO实施者不得有意伤害客户,SEO实施者不得有意违反搜索引擎或网页目录

2008-02-28 00:43:00 487

原创 .NET平台网站架构调优实践点滴

真正的高并发高负载的架构并不是由语言来决定,到了最后都是抽象成简单的结构,最后在各个点之间取得一种平衡。文/张英刚(《程序员》2008年1月刊)《程序员》最近出版的《实战Web2.0》增刊中列出了很多关于高并发高负载的网站架构,让我们对这些知名Web 2.0网站背后神秘的架构得以一窥全豹。我们可以把这些网站(请参阅《实战Web 2.0》增刊中的国外篇)分为几个类型。虽然各个网站有些业务是重叠的,我

2008-02-28 00:39:00 1783 1

原创 FeedBurner:基于MySQL和JAVA的可扩展Web应用

FeedBurner(以下简称FB,呵呵)我想应该是大家耳熟能详的一个名字,在国内我们有一个同样的服务商,叫做FeedSky。在2004年7月 份,FB的流量是300kbps,托管是5600个源,到2005年4月份,流量已经增长到5Mbps,托管了47700个源;到2005年9月份流量增 长到20M,托管了109200个源,而到2006年4月份,流量已经到了115Mbps,270000个源,每天点

2008-02-26 22:32:00 623

原创 开发大型高负载类网站应用的几个要点

看了一些人的所谓大型项目的方法,我感觉都是没有说到点子上,有点难受。我也说说自己的看法.我个人认为,很难衡量所谓项目是否大型,即便很简单的应用在高负载和高增长情况下都是一个挑战.因此,按照我的想法,姑且说是高负载高并发或者高增长情况下,需要考虑的问题.这些问题,很多是和程序开发无关,而是和整个系统的架构密切相关的. 数据库  没错,首先是数据库,这是大多数应用所面临

2008-02-26 22:26:00 544

原创 分析mixi.jp and Yeejee.com:用开源搭建的可扩展大型SNS网站

分析mixi.jp and Yeejee.com:用开源搭建的可扩展大型SNS网站(一)总概关键点:1,Mysql 切分,采用Innodb运行2,动态Cache 服务器 -- 美国Facebok.com,中国Yeejee.com,日本mixi.jp均采用开源分布式缓存服务器Memcache3,图片缓存和加速 Mixi目前是日本排名第三的网站,全球排名42,主要提供SNS

2008-02-26 22:23:00 802

原创 最便宜的高负载网站架构

1, LVS做前端四层均衡负载基于IP虚拟分发的规则,不同于apache,squid这些7层基于http协议的反向代理软件, LVS在性能上往往能得到更好的保证!2,squid 做前端反向代理加缓存squid 是业内公认的优秀代理服务器,其缓存能力更让许多高负载网站青睐!(比如新浪,网易等)使用他, 配合ESI做WEB动态内容及图片缓存,最合适不过了3,apache 用来处理php或静态html,

2008-02-26 22:21:00 872

原创 Twitter 的架构扩展: 100 倍性能提升

Twitter 是我最近一段时间用的最多的网络服务之一.还记得刚开始有段时间发消息速度那叫一个慢. 难得的是 Twitter 的开发者在用户激增的情况下性能提升的不错, 据说,相比当初有 100 倍的性能提升, 那我们就来看看他们都做了什么.(发现我这个 Blog 快成了 High Scalability 的中文镜像站了.)是否真的是 100 倍性能提升, 大可不必较真, 但 Twitte

2008-02-26 21:58:00 599

原创 WikiPedia 技术架构学习分享

维基百科(WikiPedia.org)位列世界十大网站,目前排名第八位。这是开放的力量。来点直接的数据: 峰值每秒钟3万个 HTTP 请求 每秒钟 3Gbit 流量, 近乎375MB 350 台 PC 服务器(数据来源) 架构示意图如下: Copy @Mark BergsmaGeoDNS在我写的这些网站架构的 Blog 中,GeoDNS

2008-02-26 21:57:00 525

原创 Digg 网站架构

国庆期间又收集了一些关于网站架构的信息。一直没有进行系统的整理。越来越发现其实都是自我重复的劳动,后续的信息都是嚼别人剩下的甘蔗。--by FenngDigg 工程师采用 LAMP (Linux, Apache, MySQL and PHP) 模式。这个 Alexa 排名在 100 左右的、自我估价 1.5 亿美金的站点目前有超过 100 台的 PC 服务器(足够少了),可以粗略分成三个部分:

2008-02-26 21:57:00 591

原创 Web缓存加速指南

这是一篇知识性的文档,主要目的是为了让Web缓存相关概念更容易被开发者理解并应用于实际的应用环境中。为了简要起见,某些实现方面的细节被简化或省略了。如果你更关心细节实现则完全不必耐心看完本文,后面参考文档和更多深入阅读部分可能是你更需要的内容。 什么是Web缓存,为什么要使用它? 缓存的类型: 浏览器缓存; 代理服务器缓存

2008-02-26 21:55:00 1662

原创 Tailrank 网站架构

每天数以千万计的 Blog 内容中,实时的热点是什么? Tailrank 这个 Web 2.0 Startup 致力于回答这个问题。专门爆料网站架构的 Todd Hoff 对 Kevin Burton 进行了采访。于是我们能了解一下 Tailrank 架构的一些信息。每小时索引 2400 万的 Blog 与 Feed,内容处理能力为 160-200Mbps,IO 写入大约在10-15MBps。

2008-02-26 21:48:00 417

原创 Yahoo!社区架构

旧金山举行的 QCon 会议带给我们很多新鲜的信息。虽然没机会参加,但是看看各个网站"晒架构"也是个比较过瘾的事情。请参观并收藏这个页面:Architectures youve always wondered about。eBay 的架构和去年相比基本是换汤不换药,倒是 Yahoo! 的 Ian Flint(这位老兄是 Bix 的运营总监. Bix 已被雅虎收购) 这个 PPT Yaho

2008-02-26 21:47:00 1152

原创 使用 Linux 系统调用的内核命令

Linux® 系统调用 —— 我们每天都在使用它们。不过您清楚系统调用是如何在用户空间和内核之间执行的吗?本文将探究 Linux 系统调用接口(SCI),学习如何添加新的系统调用(以及实现这种功能的其他方法),并介绍与 SCI 有关的一些工具。系统调用就是用户空间应用程序和内核提供的服务之间的一个接口。由于服务是在内核中提供的,因此无法执行直接调用;相反,您必须使用一个进程来跨越用户空间与内核

2008-02-26 21:46:00 553

原创 Linux 内核剖析

Linux® 内核是一个庞大而复杂的操作系统的核心,不过尽管庞大,但是却采用子系统和分层的概念很好地进行了组织。在本文中,您将探索 Linux 内核的总体结构,并学习一些主要的子系统和核心接口。您还可以通过其他 IBM 文章的链接更深入地进行学习。由于本文的目标是 对 Linux 内核进行介绍并探索其体系结构和主要组件,因此首先回顾一下 Linux 的简短历史,然后从较高的层次审视 Linux

2008-02-26 21:44:00 498

原创 IBM推动MapReduce发布Eclipse插件

 近日,IBM在其开发技术网站Alphaworks发布了一个Eclipse插件-IBM MapReduce Tools for Eclipse,通过该插件,开发者可以在Eclipse上创建MapReduce应用程序。   它使用了Hadoop开源MapReduce框架,该框架可以使数据密集型应用程序运行在一般硬件的大型群集之上。   Hadoop是Google labs 的MapReduce的一个

2008-02-26 01:05:00 1078

原创 用Hadoop搭建分布式存储和分布式运算集群

1. 列出使用的机器普通PC,要求:cpu: 750M-1Gmem: >128Mdisk: >10G不需要太昂贵的机器。机器名:finewine01finewine02finewine03将finewine01设为主节点,其它的机器为从节点。2. 下载和生成从这里checkout,我选择trunkhttp://svn.apache.org/repos/asf/lucene/

2008-02-26 00:53:00 1328

原创 hadoop 分布式文件系统:体系和设计

1.介绍hadoop文件系统(HDFS)是一个运行在普通的硬件之上的分布式文件系统,它和现有的分布式文件系统有着很多的相似性,然而和其他的分布式文件系统的区别也是很明显的,HDFS是高容错性的,可以部署在低成本的硬件之上,HDFS提供高吞吐量地对应用程序数据访问,它适合大数据集的应用程序,HDFS放开一些POSIX的需求去实现流式地访问文件数据,HDFS开始是为开源的apache项目nutch

2008-02-26 00:51:00 1396

翻译 类似Google构架的开源项目Hadoop近获社区关注

类似Google构架的开源项目Hadoop 已经存在一年多了,现在正受到来自开发社区的广泛关注。下面是来自Hadoop官网 的消息: Hadoop是一个软件平台,可以让你很容易地开发和运行处理海量数据的应用……Hadoop是MapReduce 的实现,它使用了Hadoop分布式文件系统(HDFS)。MapReduce将应用切分为许多小任务块去执行。出于保证可靠性的考虑,HDFS会为数据块创建多

2008-02-26 00:48:00 713

原创 Using Nutch 0.8.1 for Intranet Crawling and Searching

本文尝试使用 Nutch 0.8.1 来为几个指定的网站建立全文索引,且不使用 Hadoop 提供的分布式能力,只是简单地在一台单独的机器上完成索引工作。如果需要使用 Nutch 的分布式能力,需要熟悉一下 Hadoop.约定 Nutch 部署后的目录结构如下:/home/hys/nutch-deployed    /nutch-0.8.1        (Nutch 0.8.1 instal

2008-02-26 00:44:00 658

转载 众说纷“云”:看云计算在存储领域异军突起

搜索巨擎Google凭借其云计算技术理念走在了大型数据中心架构配置的前沿。Sun公司的首席技术官Greg Papadopoulos曾经将云计算比作为一种名为"红移(Red Shift)"的天体光谱现象,而Sun公司也正是目前市场中唯一一家提供基于云计算理念的系统架构解决方案的厂商。天文学家常常用多普勒效应 (Doppler effect)或者红移现象来定义宇宙的扩张。在天文学里,一个天体的光谱向红

2008-02-25 19:43:00 650

原创 Map Reduce - the Free Lunch is not over?

微软著名的C++大师Herb Sutter在2005年初的时候曾经写过一篇重量级的文章:”The Free Lunch Is Over: A Fundamental Turn Toward Concurrency in Software“,预言OO之后软件开发将要面临的又一次重大变革-并行计算。摩尔定律统制下的软件开发时代有一个非常有意思的现象:”Andy giveth, and Bill

2008-02-24 20:03:00 470

原创 Lucene构建index性能调整

1、调整MaxBufferedDocs和MergeFactor,经过调试,发现MaxBufferedDocs=1000,MergeFactor=100时性能较好。indexModifier = new IndexModifier(@"c:/indexpath",new StandardAnalyzer(),true);indexModifier.SetMaxBufferedDocs(1000)

2008-02-24 18:58:00 785

转载 Tomcat 的集群和负载均衡

最新版的 Tomcat servlet 容器提供集群和负载均衡的能力,对于部署可升级、健壮的Web应用来说,这是必不可少的。这篇文章的第一部分描述集群与负载均衡的特性和要点。第二部分举出一个如何配置 Tomcat 集群的实例,同时介绍在集群环境中使用内存复制的方式来实现 session 的持久化 。Tomcat 5 自带一个基于规则的负载均衡应用。根据两种负载均衡策略(扩展自规则API,分别是

2008-02-24 18:56:00 908

原创 多服务器的用户身份认证方案

当游戏服务器群达到一定规模后,让用户只从一个入口连入会给这个入口带来很大的压力。这样,我们就需要让服务器群中的多台机器都允许用户直接连接。当服务器开放给用户直接登陆后,必须面临的一个问题就是用户身份认证的问题。大多数提供网络服务的公司都做了一套统一的用户认证系统,比如微软的 passport ,网易的通行证,等等。为了避免重复验证用户身份而给用户认证系统带来过大的负担,云风在这里给出一

2008-02-24 18:07:00 845

原创 Tomcat集群与负载均衡

在进入集群系统架构探讨之前,先定义一些专门术语:1. 集群(Cluster):是一组独立的计算机系统构成一个松耦合的多处理器系统,它们之间通过网络实现进程间的通信。应用程序可以通过网络共享内存进行消息传送,实现分布式计算机。 2. 负载均衡(Load Balance):先得从集群讲起,集群就是一组连在一起的计算机,从外部看它是一个系统,各节点可以是不同的操作系统或不同硬件构成的计算机。如一个提供W

2008-02-24 18:04:00 950

原创 PlentyOfFish 网站架构学习

采取 Windows 技术路线的 Web 2.0 站点并不多,除了 MySpace ,另外就是这个 PlentyOfFish。这个站点提供 "Online Dating” 服务。一个令人津津乐道的、惊人的数据是这个只有一个人(创建人Markus Frind)的站点价值 10 亿,估计要让很多人眼热,更何况 Markus Frind 每天只用两个小时打理网站--可操作性很强嘛。之所以选择 W

2008-02-24 17:42:00 956

原创 性能扩展问题要趁早

与国内的 Web 2.0 Startup 技术人员相比,国外技术人员更乐于分享。分享也是一种更好的宣传手段,如果不是看到了这篇 Scaling an early stage startup, 或许我就不会知道这位 Mark Maunder (他还有个中文名字:马孟德) 以及他的 FeedJet。一般来说,一个刚刚发布的 Web 应用,因为用户量并不多,性能问题可能并不是很明显。可一旦宣传展

2008-02-24 17:40:00 558

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除