大型网站架构技术一览

最新推荐文章于 2024-07-09 13:17:46 发布

Andrewniu

最新推荐文章于 2024-07-09 13:17:46 发布

阅读量623

点赞数

分类专栏： IT基础类

原文链接：https://blog.csdn.net/u012721519/article/details/80804344

版权

IT基础类专栏收录该内容

259 篇文章 9 订阅

订阅专栏

大型网站的挑战主要来自庞大的用户，高并发的访问和海量数据，任何简单的业务一旦需要处理数以P计的数据和面对数以亿计的用户，问题就会变得棘手。大型网站架构主要就是解决这类问题。更多内容也可以阅读各大互联网公司架构演进之路汇总、大型网站架构演化历程两篇文章。本文内容大部分来自《大型网站技术架构》,这本书很值得一看，强烈推荐。网站系统架构层次如下图所示：1.前端架构前端指用户请求到达网站应用服务器之前经历的环节，通常不包含网站业务逻辑，不处理动态内容。浏览器优化技术并不是优化浏览器，而是通过优化响应页面，加快浏览器页面的加载和显示，常用的有页面缓存、合并HTTP减少请求次数、使用页面压缩等。CDN内容分发网络，部署在网络运营商机房，通过将静态页面内容分发到离用户最近最近的CDN服务器，使用户可以通过最短路径获取内容。动静分离，静态资源独立部署静态资源，如JS、CSS等文件部署在专门的服务器集群上，和Web应用动态内容服务分离，并使用专门的（二级）域名。图片服务图片不是指网站Logo、按钮图标等，这些文件属于上面提到的静态资源，应该和JS、CSS部署在一起。这里的图片指用户上传的图片，如产品图片、用户头像等，图片服务同样适用独立部署的图片服务器集群，并使用独立（二级）域名。反向代理部署在网站机房，在应用服务器、静态资源服务器、图片服务器之前，提供页面缓存服务。DNS域名服务，将域名解析成IP地址，利用DNS可以实现DNS负载均衡，配置CDN也需要修改DNS，使域名解析后指向CDN服务器。2.应用层架构应用层是处理网站主要业务逻辑的地方。开发框架网站业务是多变的，网站的大部分软件工程师都是在加班加点开发网站业务，一个好的开发框架至关重要。一个号的开发框架应该能够分离关注面，使美工、开发工程师可以各司其事，易于协作。同时还应该内置一些安全策略，防护Web用攻击。页面渲染将分别开发维护的动态内容和静态页面模板集成起来，组合成最终显示给用户的完整页面。负载均衡将多台应用服务器组成一个集群，通过负载均衡技术将用户请求分发到不同的服务器上，以应对大量用户同时访问时产生的高并发负载压力。Session管理为了实现高可用的应用服务器集群，应用服务器通常设计为无状态，不保存用户请求上下文信息，但是网站业务通常需要保持用户会话信息，需要专门的机制管理Session，使集群内甚至跨集群的应用服务器可以共享Session。动态页面静态化对于访问量特别大而更新又不很频繁的动态页面，可以将其静态化，即生成一个静态页面，利用静态页面的优化手段加速用户访问，如反向代理、CDN、浏览器缓存等。业务拆分将复杂而庞大的业务拆分开来，形成多个规模较小的产品，独立开发、部署、维护，除了降低系统耦合度，也便于数据库业务分库。按业务对关系数据库进行拆分，技术难度相对较小，而效果又相对较好。虚拟化服务器将一台物理服务器虚拟化成多态虚拟服务器，对于并发访问较低的业务，更容易用较少的资源构架高可用的应用服务器集群。3.服务层架构提供基础服务，供应用层调用，完成网站业务。分布式消息利用消息队列机制，实现业务和业务、业务和服务之间的异步消息发送及低耦合的业务关系。分布式服务提供高性能、低耦合、易复用、易管理的分布式服务，在网站实现面向服务架构（SOA）。分布式缓存通过可伸缩的服务器集群提供大规模热点数据的缓存服务，是网站性能优化的重要手段。分布式配置系统运行需要配置许多参数，如果这些参数需要修改，比如分布式缓存集群加入新的缓存服务器，需要修改应用程序客户端的缓存服务器列表配置，并重启应用程序服务器。分布式配置在系统运行期提供配置动态推送服务，将配置修改实时推送到应用系统，无需重启服务器。4.存储层架构提供数据、文件的持久化存储访问与管理服务。分布式文件网站在线业务需要存储的文件大部分都是图片、网页、视频等比较小的文件，但是这些文件的数量非常庞大，而且通常都在持续增加，需要伸缩性设计比较好的分布式文件系统。关系数据库大部分万丈的主要业务是基于关系数据库开发的，但是关系数据库对集群伸缩性的支持表较差。通过在应用程序的数据访问层增加数据库访问的路由功能，根据业务配置将数据库访问路由到不同的物理数据库上，可实现关系数据库的分布式访问。NoSQL数据库目前各种NoSQL数据库层出不穷，在内存管理、数据模型、集群分布式管理等方面各有优势，不过从社区活动性角度看，HBase无疑是目前最好的。数据同步在支持全球范围内数据共享的分布式数据库技术成熟之前，拥有多个数据中心的网站必须在多个数据中心之间进行数据同步，以保证每个数据中心都拥有完整的数据。在实践中，为了减轻数据库压力，将数据库的事物日志（或者NoSQL的写操作Log）同步到其他数据中心，根据Log进行数据重演，实现数据同步。5.后台架构网站应用中，除了要处理用户的实时访问请求外，还有一些后台非实时数据分析要处理。搜索引擎即使是网站内部的搜索引擎，也需要进行数据增量更新及全量更新、构建索引等。这些操作通过后台系统定时执行。数据仓库根据离线数据，提供数据分析与数据挖掘服务。推荐系统社交网站及购物网站通过挖掘人与人之间的关系，人和商品之间的关系，发展潜在的人际关系和购物兴趣，为用户提供个性化推荐服务。6.数据采集与监控监控网站访问情况与系统运行情况，为网站运营决策和运维管理提供支持保障。浏览器数据采集通过在网站页面中嵌入JS脚本采集用户浏览器环境与操作记录，分析用户行为。服务器业务数据采集服务器业务数据包括两种，一种是采集在服务器端记录的用户请求操作日志；一种是采集应用程序运行期业务数据，比如待处理消息数目等。服务器性能数据采集采集服务器性能数据，如系统负载、内存使用率、网卡流量等。系统监控将前述采集的数据以图表的方式展示，以便运营和运维人员监控网站运行状况，做到这一步仅仅是系统监视。更先进的做法是根据采集的数据进行自动化运维，自动处理系统异常状况，是吸纳自动化控制。系统报警如果采集来的数据超过预设的正常情况的阀值，比如系统负载过高，就通过邮件、短信、语音电话等方式发出警报信号，等待工程师干预。7.安全架构保护网站免遭攻击及敏感信息泄露。Web攻击以HTTP请求的方式发起的攻击，危害最大的就是XSS和SQL注入攻击。但是只要措施得当，这两种攻击都是比较容易防范的。数据保护敏感信息加密传输与存储，保护网站和用户资产。8.数据中心机房架构大型网站需要的服务器规模数以十万计，机房物理架构也需要关注。机房架构对于一个拥有十万台服务器的大型网站，每台服务器耗电（包括服务器本身耗电及空调耗电）每年大约需要人民币2000元，那么网站每年机房电费就需要两亿人民币。数据中心能耗问题日趋严重，Google、Facebook选择数据中心地理位置的时候趋向选择散热良好，供电充裕的地方。机柜架构包括机柜大小，网线布局、指示灯规格、不间断电源、电压规格（是48V直流电还是220V民用交流电）等一系列问题。服务器架构大型网站由于服务器采购规模庞大，大都采用定制服务器的方式代替购买服务器整机。根据网站应用需求，定制硬盘、内存、甚至CPU，同时去除不必要的外设接口（显示器输出接口，鼠标、键盘输入接口），并使空间结构利于散热。原文地址：http://www.hollischuang.com/archives/1132Good luck!Reprinted by Jimmy.li
————————————————
版权声明：本文为CSDN博主「Jimmy.li」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/u012721519/article/details/80804344

关于什么是模式,这个来自建筑师的词汇是这样定义的:”每一个模式描述了一个在我们周围不断重复发生的问题及该问题解决方案的核心。这样，你就能一次又一次地使用该方案而不必做重复的工作”。

模式的关键在于模式的可重复性，问题与场景的可重复性带来的解决方案的可重复使用。

联系实际开发:
每个做前后台开发的小伙伴们都会发现一点，一个正儿八经的后台系统，80%是重复的，20%是特别的(可以称作个性化定制)。

举个例子:
人人开源的后台系统:

Jeesite4的后台系统:

从这两者进行比对就可以明显的发现公共的部分非常相似(只不过展现的形式不一样，renren-security中的角色管理是直接在菜单中显示，而jeesite4则放在权限管理中，只需点击即可看到对应的角色管理)

在这里我就不详细说它们的内部架构了，感兴趣的可以参考我的这篇博客开源项目之架构分享

在软件开发中，可复用模式非常重要，因为这会直接影响到敏捷开发的效率高低。

网站架构模式

1.分层

分层是企业应用系统中最常见的一种架构模式，将系统在横向维度上切分成几个部分，每个部分负责一部分相对比较单一的职责，然后通过上层对下层的依赖和调用组成一个完整的系统。

应用层:负责具体业务和视图展示，如网站首页及搜索输入和结果展示。
服务层:为应用层提供服务支持，如用户管理服务，购物车服务等。
数据层:提供数据存储访问服务，如数据库、缓存、文件、搜索引擎等。

这种分层模式，很多开发者们并不陌生，特别是Java开发的朋友们，最常用的就是三层架构(业务逻辑层、数据访问层、UI层等)，在分层模式中就是一个比较好的诠释。

通过分层，可以更好地将一个庞大的软件系统切分成不同的部分，便于分工合作开发和维护；各层之间具有一定的独立性，只要维持调用接口不变，各层可以根据具体问题独立演化发展而不需要其他层必须做出相应的调整。

任何事情有利也有弊，分层并不是万能的，比如禁止跨层次调用(应用层不能直接调用数据层)及逆向调用(数据层调用服务层、或服务层调用应用层等)。

不过总的来说，正是因为有了分层，软件开发效率才会越来越高，再没有分层的时代，数据层、业务逻辑层、表现层全部耦合在一起，真的是牵其一而动全身。在此我不得不佩服早期开发人员的勇气(这里以早期Java开发为例，记得在校的时候我曾经见过一个JSP+Servlet囊括数据层、业务逻辑层、表现层内容，当时我看到这个项目就冒冷汗，太TMD的变态了)

2.分割

如果说分层是将软件在横向方面进行切分，那么分割就是在纵向方面对软件进行切分。
网站越大，功能越复杂，服务和数据处理的种类也越多，将这些不同的功能和服务分割开来，包装成高内聚低耦合的模块单元，一方面有助于软件的开发和维护；另一方面，便于不同模块的分布式部署，提高网站的并发处理能力和功能扩展能力。

那么什么是内聚？什么是耦合？
内聚是从功能角度来度量模块内的联系，一个好的内聚模块应当恰好做一件事。它描述的是模块内的功能联系(比如一个函数只办一件事)。
耦合是软件结构中各模块之间相互连接的一种度量，耦合强弱取决于模块间接口的复杂度、进入或访问一个模块的点以及通过接口的数据(耦合这个很好理解，耦合性越低代码的可扩展性可维护性越好，相反耦合性越高，开发者们就有种想上吊自杀的冲动，耦合性越高的例子就不多说了，特别是维护老项目的开发者们感触最深了)

3.分布式

对于大型网站，分层和分割的一个主要目的是为了切分后的模块便于分布式部署，即将不同模块部署在不同的服务器上，通过远程调用协同工作。分布式意味着可以使用更多的计算机完成同样的功能，计算机越多，CPU、内存、存储资源也就越多，能够处理的并发访问和数据量就越大，进而能够为更多的用户提供服务。

分布式也就其弊端:
(1)服务的调用必须通过网络，可能对性能造成比较严重的影响;
(2)服务器越多，服务器宕机的概率也就越大，宕机会造成服务不可用，直接导致网站可用性降低;
(3)数据一致性问题;
(4)开发管理维护困难;

常用的分布式方案：
(1)分布式应用和服务:将分层和分割后的应用和服务模块分布式部署，除了可以改善网站性能和并发性、加快开发和发布速度、减少数据库连接资源消耗外；还可以使不同应用复用共同的服务，便于业务功能扩展;
(2)分布式静态资源:网站的静态资源如JS、CSS、图片等资源独立分布式部署，并采用独立的域名,即人们常说的动静分离。
(3)分布式数据和存储:大型网站处理以P为单位的海量数据(P这个单位也许有人对此不熟悉，本人普及一下，1024K=1M 1024M=1G 1024G=1T 1024T=1P)，通常分布式存储以NoSQL居多。
(4)分布式计算，首推Hadoop。

4.集群

记得当初我对集群和分布式之间的区别不太理解，认为它们差不多。
其实它们之间的区别大了去了，在此我用一句话概括(非常理解，保你不忘):
集群就是不同的机器提供相同的服务;
分布式是不同的机器提供不同的服务;

服务器集群有更多的服务器提供相同的服务，因此可以提供更好的并发特性，当有更多用户访问的时候，只需要向集群中加入新的机器即可。同时因为一个应用由多台服务器提供，当某台服务器发生故障时，负载均衡设备或者系统的失效转移机制会将请求转发到集群中的其他服务器上，使服务器故障不影响用户使用。所以在网站应用中，即使是访问量很小的分布式应用和服务，也至少要部署两台服务器构成一个小的集群，目的就是提高系统的可用性。

5.缓存

缓存就是将数据存放在举例计算最近的位置以加快处理速度。缓存是改善软件性能的第一手段，现代CPU越来越快的一个重要因素就是使用更多的缓存，在复杂的软件设计中，缓存几乎无处不在。

(1)CDN:即内容分发网络，部署在距离终端用户最近的网络服务商，用户的网站请求总是先到达他的网络服务商那里，在这里缓存网站的一些静态资源(较少变化的数据)，可以就近以最快速度返回给用户，如视频网站和门户网站会将用户访问量大的热点内容缓存在CDN。

(2)反向代理:反向代理属于网站前端架构的一部分，部署在网站的前端，当用户请求到达网站的数据中心时，最先访问到的就是反向代理服务器，这里缓存网站的静态资源，无需将请求继续转发给应用服务器就能返回给用户。

(3)本地缓存:在应用服务器本地缓存着热点数据，应用程序可以在本机内存中直接访问数据，而无需访问数据库;

(4)分布式缓存:大型网站的数据量非常庞大，即使只缓存一小部分，需要的内存空间也不是单机能承受的，所以处了本地缓存，还需要分布式缓存，将数据缓存在一个专门的分布式缓存集群中，应用程序通过网络通信访问缓存数据;

注意:
使用缓存的两个前提条件:
a.数据访问热点不均衡,某些数据会更频繁的访问;
b.数据在某个时间段内有效，不会很快过期,否则缓存的数据就会因已经失效而产生脏读，影响结果的正确性。

什么是脏读？
通俗的讲，当一个事务正在访问数据，并且对数据进行了修改，而这种修改还没有提交到数据库中，这时，另外一个事务也访问这个数据，然后使用了这个数据。因为这个数据是还没有提交的数据，那么另外一个事务读到的这个数据是脏数据，依据脏数据所做的操作可能是不正确的

网站应用中，缓存除了可以加快数据访问数据，还可以减轻后端应用和数据存储的负载压力，这一点对网站数据库架构至关重要，网站数据库几乎都是按照有缓存的前提进行负载能力设计的。

6.异步

计算机软件发展的一个重要目标和驱动力就是降低软件耦合性。事物之间直接关系越少，就越少被彼此影响，越可以独立发展。
系统解耦合的手段除了前面提到的分层、分割、分布式等，还有一个重要手段就是异步，业务之间的消息传递不是同步调用，而是将一个业务操作分成多个阶段，每个阶段之间通过共享数据的方式异步执行协作。

异步架构是典型的生产者消费者模式，两者不存在直接调用，只要保持数据结构不变，彼此功能实现可以随意变换而不互相影响，这对网站扩展新功能非常便利。除此外，使用异步消息队列还有如下特性:
(1)提高系统可用性。消费者服务器发生故障，数据会在消息队列服务器中存储堆积，生产者服务器可以继续处理业务请求，系统整体表现无故障。消费者服务器恢复正常后，继续处理消息队列中的数据。

(2)加快网站响应速度。处在业务处理前端的生产者服务器在处理完业务请求后，将数据写入消息队列，不需要等待消费者服务器处理就可以返回，响应延迟减少;

(3)消除并发访问高峰。用户访问网站是随机的，存在访问高峰和低谷，即使网站按照一般访问高峰进行规划和部署，也依然会出现突发事件，比如购物网站的促销活动，微博上的热点事件(比如之前赵丽颖官宣导致微博宕机)。