网站架构

最新推荐文章于 2024-07-09 13:17:46 发布

fayeyiwang

最新推荐文章于 2024-07-09 13:17:46 发布

阅读量755

点赞数

分类专栏： Java基础电商摘抄

Java基础同时被 2 个专栏收录

17 篇文章 0 订阅

订阅专栏

电商摘抄

7 篇文章 1 订阅

订阅专栏

一、大型网站系统特点

　　（1）高并发、大流量：PV量巨大

　　（2）高可用：7*24小时不间断服务

　　（3）海量数据：文件数目分分钟xxTB

　　（4）用户分布广泛，网络情况复杂：网络运营商

　　（5）安全环境恶劣：黑客的攻击

　　（6）需求快速变更，发布频繁：快速适应市场，满足用户需求

　　（7）渐进式发展：慢慢地运营出大型网站

二、大型网站架构演化过程

　　（1）初始阶段网站架构：一台Server就刚需—应用程序、数据库、文件等所有资源都集中在一台Server上，典型案例：基于LAMP架构的PHP网站

　　（2）应用和数据服务分离：三台Server平天下—业务发展，单台不再适应业务的发展，将应用和数据分离后成三台Sever（应用服务器、文件服务器与数据库服务器）。分离后三台Server对硬件资源的需求各不相同：应用服务器需要更快更强大的CPU，而数据库服务器需要更快的硬盘和更大的内存，文件服务器则需要更大的硬盘；

　　（3）使用缓存改善网站性能：3+X的Server模式—减少数据库访问压力，提高网站的数据访问速度。缓存又可以分为：本地缓存和远程缓存（可以是分布式的），本地缓存访问速度快，但数据量有限；远程分布式缓存可以集群，因此容量不受限制；

　　（4）使用应用服务器集群改善网站并发处理能力：集群—解决高并发、海量数据问题的常用手段，实现系统的可伸缩性。通过负载均衡调度器，可将用户访问分发到集群中的某台Server上，应用服务器的负载压力不再成为整个网站的瓶颈。

　　（5）数据库读写分离：使用缓存后绝大部分都可以不通过DB就能完成，但仍有一部分（缓存访问不命中、缓存过期）和全部的写操作需要访问DB，在网站的用户达到一定规模后，DB因为负载压力过高成为网站的瓶颈。大部分主流DB都提供主从热备功能，利用这一功能就可以配置两台DB主从关系，一台数据更新同步到另一台Server上。网站利用DB的这一功能，实现DB读写分离，从而改善DB负载压力。

　　（6）使用反向代理和CDN加速网站响应：CDN和反向代理的基本原理都是缓存，区别在于CDN部署在网络提供商的机房，而反向代理则部署在网站的中心机房。使用CDN和反向代理的目的都是尽早返回数据给用户，一方面加快用户访问速度，另一方面也减轻后端服务器的负载压力。

　　（7）使用分布式文件系统和分布式数据库系统：随着网站业务的发展，两台DB服务器依然不能满足需求，文件系统也一样。

　　（8）使用NoSQL和搜索引擎：NoSQL和搜索引擎都是源自互联网的技术手段，对可伸缩的分布式特性具有更好的支持。应用服务器则通过一个统一数据访问模块访问各种数据，减轻应用程序管理诸多数据源的麻烦。

　　（9）业务拆分：通过分而治之的手段将整个网站业务分成不同的产品线，如淘宝将首页、商铺、订单、卖家、买家等拆分成不同的产品线，分归不同的业务团队负责。各个应用之间可以通过建立一个超链接建立关系，也可以通过消息队列进行数据分发。

　　（10）分布式服务：既然每一个应用系统都需要执行许多相通的业务操作，比如用户管理、商品管理等，那么可以将这些共用的业务提取出来，独立部署。

三、大型网站架构演化价值观

　　（1）核心价值：随网站所需灵活应对

　　大型网站不是从无到有一步就搭建好一个大型网站，而是能够伴随小型网站业务的渐进发展，慢慢地演化成一个大型网站。

　　（2）驱动力量：网站的业务发展—业务成就了技术，事业成就了人，而不是相反

四、大型网站架构设计的误区

　　（1）一味追随大公司的解决方案

　　（2）为了技术而技术->常见问题

　　（3）企图用技术解决所有问题：技术是用来解决业务问题的，而业务的问题，也可以通过业务的手段去解决；

本章思维导图

《大型网站技术架构》读书笔记二：大型网站架构模式

此篇已收录至《大型网站技术架构》读书笔记系列目录贴，点击访问该目录可获取更多内容。

一、分层

　　最常见的架构模式，将系统在横向维度上切分成几个部分，每个部分单一职责。网站一般分为三个层次：应用层、服务层和数据层，其具体结构如下图所示：

　　通过分层，一个庞大系统切分成不同部分，便于分工合作和维护。

　　但是，分层架构也有一些挑战：①必须合理规划层次边界和接口；②禁止跨层次的调用及逆向调用。

二、分割

　　分割是在纵向方面对软件进行切分->将不同的功能和服务分割开来，包装成高内聚低耦合的模块单元，有助于软件开发和维护，还便于不同模块的分布式部署，提高网站的并发处理能力和功能扩展能力。

三、分布式

　　①分布式应用和服务：应用和服务模块分布式部署，便于业务功能扩展；

　　②分布式静态资源：JS、CSS、LOGO图片等资源独立部署，采用独立域名->动静分离；

　　③分布式数据和存储：传统RDBMS分布式部署和NoSQL产品；

　　④分布式计算：Hadoop及其MapReduce分布式计算框架，其特点是移动计算而不是移动数据。

四、集群

　　多台服务器部署相同应用构成一个集群，通过负载均衡设备共同对外提供服务。当某台服务器发生故障，负载均衡设备或者系统的失效转移机制将请求转发到集群中的其他服务器上，提高系统的可用性，即所谓的HA（高可用性）。

　　所以，在网站应用中，即使是访问量很小的分布式应用和服务，也至少要部署两台服务器构成一个小集群。

五、缓存

　　缓存是改善软件性能的第一手段。在复杂的软件设计中，缓存几乎无处不在。

　　①CDN：内容分发网络，缓存网站的一些静态资源；

　　②反向代理：部署在网站的前端，最先访问到的就是反向代理服务器；

　　③本地缓存：在应用服务器本地缓存热点数据，无需访问数据库；

　　④分布式缓存：应用程序通过网络通信访问缓存数据；

　　网站应用中，缓存除了可以加快数据访问速度，还可以减轻后端应用和数据存储的负载压力。

六、异步

　　业务之间的消息传递不是同步调用，而是将一个业务操作分成多个阶段，每个阶段之间通过共享数据的方式异步执行进行协作。

　　异步架构是典型的生产者消费者模式，两者不存在直接调用，只要保持数据结构不变，彼此功能实现可以随意变化而不互相影响，这对网站扩展新功能非常便利。

　　异步消息队列可以提高系统可用性、加快网站响应速度，消除并发访问高峰。

七、冗余

　　要想保证在服务器宕机的情况下网站依然可以继续服务，不丢失数据，就需要一定程度的服务器冗余运行，数据冗余备份，这样当某台服务器宕机时，可以将其上的服务和数据访问转移到其他机器上。

　　数据库除了定期备份存档保存实现冷备份之外，为了保证在线业务高可用，还需要对数据库进行主从分离，实时同步实现热备份。

八、自动化

　　在无人值守的情况下，网站可以正常运行，一切都可以自动化是网站的理想状态。目前大型网站的自动化架构设计主要集中在发布运维方面。　

　　①发布部署过程自动化；

　　②自动化代码管理；

　　③自动化测试；

　　④自动化安全监测；

九、安全

　　①通过密码和手机校验码进行身份验证；

　　②对登录、交易等操作进行加密；

　　③使用验证码进行识别；

　　④对于常见的XSS攻击、SQL注入、编码转换等进行防范；

　　⑤对垃圾或敏感信息进行过滤；

　　⑥对交易转账等操作进行风险控制；

十、总结

　　好的设计绝对不是模仿，不是生搬硬套某个模式，而是对问题深刻理解之上的创造与创新，即使是“微创新”，也是让人耳目一新的似曾相识。山寨与创新的最大区别不在于是否抄袭，是否模仿，而在于对问题和需求是否真正理解与把握。

本章思维导图

《大型网站技术架构》读书笔记三：大型网站核心架构要素

此篇已收录至《大型网站技术架构》读书笔记系列目录贴，点击访问该目录可获取更多内容。

一、性能—响应时间决定用户

（1）浏览器端：

　　①浏览器缓存；

　　②使用页面压缩；

PS：Gzip压缩效率非常高，通常可以达到70%的压缩率，也就是说，如果你的网页有30K，压缩之后就变成了9K左右。想要启用Gzip压缩，提高浏览速度，可以浏览这篇文章：http://www.chinaz.com/web/2012/1017/278682.shtml

　　③合理布局页面；

　　CSS：把样式表置于顶部；避免使用CSS表达式（expression_r）；使用外部JavaScript和CSS；削减JavaScript和CSS；用<link>代替@import；避免使用滤镜；

JavaScript：把脚本置于页面底部；使用外部JavaScript和CSS；削减JavaScript和CSS；剔除重复脚本；减少DOM访问；开发智能事件处理程序；

　　④减少Cookie传输；

（2）CDN：内容分发网络（ContentDelivery Network，简称CDN）将加速内容分发至离用户最近的节点，缩短用户查看对象的延迟，提高用户访问网站的响应速度与网站的可用性，解决网络带宽小、用户访问量大、网点分布不均等问题。详情请见百度百科：http://baike.baidu.com/view/8689800.htm?from_id=420951&type=search&fromtitle=CDN&fr=aladdin

（3）应用服务器端：服务器本地缓存和分布式缓存；

　　Memcached简介：http://baike.baidu.com/view/794242.htm

　　Redis简介：http://baike.baidu.com/view/4595959.htm

（4）服务器集群技术：Web服务器集群、数据库服务器集群、分布式缓存服务器集群等等，通过部署多台服务器共同对外提供同类服务，提高整体处理能力。

（5）数据库服务器端：

　　①索引：索引（index）是对数据库表中一个或多个列（例如，employee 表的姓氏 (name) 列）的值进行排序的结构。如果想按特定职员的姓来查找他或她，则与在表中搜索所有的行相比，索引有助于更快地获取信息。

PS：要注意的是，建立太多的索引将会影响更新和插入的速度，因为它需要同样更新每个索引文件。

　　②缓存：数据库缓存是介于应用程序和物理数据源之间，其作用是为了降低应用程序对数据库的物理数据源访问的频次，从而提高了应用的运行性能。

　　③SQL优化：当一个基于数据库的应用程序运行起来很慢时，90%的可能都是由于数据访问程序的问题，要么是没有优化，要么是没有按最佳方法编写代码，因此你需要审查和优化你的数据访问/处理程序。具体可以浏览这篇文章：http://www.cnblogs.com/Shaina/archive/2012/04/22/2464576.html

　　④NoSQL：方兴未艾的NoSQL数据库通过优化数据模型、存储结构、伸缩性等手段在性能方面的优势日趋明显。

二、可用性—你能保证几个9？

（1）如何衡量可用性？全靠9来撑腰：几乎所有网站都承诺7*24小时可用，但事实上都不可能完全实现，总会有一些故障时间。那么，去除这些故障时间就是网站的总可用时间。换算成网站的可用性指标，以此衡量网站的可用性，例如某些知名网站可用性达到99.99%。

（2）哪些手段提高可用性？

　　①核心：冗余-各服务器互相备份保证整体可用；

　　②应用服务器端：通过负载均衡设备建立集群，其中一台宕机立即切换到其他服务器继续提供服务，这就保证了高可用性。

　　③存储服务器端：需要对数据进行实时备份，当某台宕机立即将数据访问请求转换到其他服务器上，并进行数据恢复以保证数据高可用。

三、伸缩性—能屈能伸方为大丈夫

（1）衡量标准：

　　①是否可以多态服务器构建集群？

　　②是否容易向集群中添加新服务器？

　　③加入服务器后是否能提供无差别服务？

（2）主要手段：

　　①应用服务器：使用合适的负载均衡设备（硬件还是软件？F5还是LVS+KeepAlived）；

　　②缓存服务器：改进缓存路由算法保证缓存数据的可访问性；

　　③数据库服务器：通过路由区分等手段将多服务器组成一个集群；

四、扩展性—不痛不痒之间新业务就上线了

（1）衡量标准：增加新业务时是否可以实现对现有产品透明无影响（是否需要对现有业务进行修改匹配？）；

（2）主要手段：

　　①事件驱动架构：利用消息队列实现；

　　②分布式服务：将业务和可复用服务分离；

五、安全性—妈妈再也不用担心的我的照片了

（1）何为安全性？保护网站不受恶意访问和攻击，保护网站的重要数据不被窃取；

（2）衡量标准：针对现存和潜在的攻击窃密手段，是否有可靠的应对策略；

本章思维导图

《大型网站技术架构》读书笔记四：瞬时响应之网站的高性能架构

此篇已收录至《大型网站技术架构》读书笔记系列目录贴，点击访问该目录可获取更多内容。

一、网站性能测试

（1）性能测试指标：①响应时间；②并发数；③吞吐量；④性能计数器；

（2）性能测试方法：①性能测试；②负载测试；③压力测试；④稳定性测试；

（3）性能优化策略：

　　①性能分析：检查请求处理各个环节的日志，分析哪个环节响应时间不合理，检查监控数据分析影响性能的因素；

　　②性能优化：Web前端优化，应用服务器优化，存储服务器优化；

二、Web前端性能优化

（1）浏览器访问优化：

　　①减少http请求：因为http是无状态的，每次请求的开销都比较昂贵（需要建立通信链路、进行数据传输，而服务器端对于每个http请求都需要启动独立的线程去处理）；减少http的主要手段是合并CSS、合并JS、合并图片（CSS精灵，利用偏移定位image）；

　　②使用浏览器缓存：设置http头中Cache-Control和Expires属性；

　　③启用压缩：可以对html、css、js文件启用Gzip压缩，可以达到较高的压缩效率，但是压缩会对服务器及浏览器产生一定的压力；

　　④CSS放页面最上面，JS放页面最下面：浏览器会在下载完全部CSS之后才开始对整个页面进行渲染，因此最好将CSS放在页面最上面；而浏览器在加载JS后会立即执行，有可能会阻塞整个页面，造成页面显示缓慢，因此最好将JS放在页面最下面；

　　⑤减少Cookie传输：一方面，太大的Cookie会严重影响数据传输；另一方面，对于某些静态资源的访问（如CSS、JS等）发送Cookie没有意义；

（2）CDN加速：

　　CDN（内容分发网络）仍然是一个缓存，它将数据缓存在离用户最近的地方，便于用户以最快速度获取数据。即所谓的“网络访问第一跳”，如下图所示：

　　CDN只将访问频度很高的热点内容（例如：图片、视频、CSS、JS脚本等访问频度很高的内容）进行缓存，可以极大地加快用户访问速度，减少数据中心负载。

（3）反向代理：

　　反向代理服务器位于网站机房，代理网站Web服务器接收Http请求，对请求进行转发，如下图所示：

　　反向代理服务器具有以下功能：

　　①保护网站安全：任何来自Internet的请求都必须先经过代理服务器；

　　②通过配置缓存功能加速Web请求：减轻真实Web服务器的负载压力；

　　③实现负载均衡：均衡地分发请求，平衡集群中各个服务器的负载压力；

三、应用服务器性能优化

（1）分布式缓存：

PS：网站性能优化第一定律：优先考虑使用缓存优化性能。缓存是指将数据存储在相对较高访问速度的存储介质中（如内存），以供系统进行快速处理响应用户请求。

　　①缓存本质是一个内存Hash表，数据以(Key,Value)形式存储在内存中。

　　②缓存主要用来存放那些读写比很高、很少变化的数据，如商品的类目信息、热门商品信息等。这样，应用程序读取数据时，先到缓存中取，如缓存中没有或失效，再到数据库中取出，重新写入缓存以供下一次访问。因此，可以很好地改善系统性能，提高数据读取速度，降低存储访问压力。

　　③分布式缓存架构：一方面是以以JBoss Cache为代表的互相通信派；另一方面是以Memcached为代表的互不通信派；

　　JBoss Cache需要将缓存信息同步到集群中的所有机器，代价比较大；而Memcached采用一种集中式的缓存集群管理，缓存与应用分离部署，应用程序通过一致性Hash算法选择缓存服务器远程访问缓存数据，缓存服务器之间互不通信，因而集群规模可以轻易地扩容，具有良好的伸缩性。

　　Memcached由两个核心组件组成：服务端（ms）和客户端（mc），在一个memcached的查询中，mc先通过计算key的hash值来确定kv对所处在的ms位置。当ms确定后，客户端就会发送一个查询请求给对应的ms，让它来查找确切的数据。因为这之间没有交互以及多播协议，所以 memcached交互带给网络的影响是最小化的。

（2）异步操作：

　　①使用消息队列将调用异步化，可改善网站的扩展性，还可改善网站性能；

　　②消息队列具有削峰的作用->将短时间高并发产生的事务消息存储在消息队列中，从而削平高峰期的并发事务；

PS：任何可以晚点做的事情都应该晚点再做。前提是：这个事儿确实可以晚点再做。

（3）使用集群：

　　①在高并发场景下，使用负载均衡技术为一个应用构建多台服务器组成的服务器集群；

　　②可以避免单一服务器因负载压力过大而响应缓慢，使用户请求具有更好的响应延迟特性；

　　③负载均衡可以采用硬件设备，也可以采用软件负载。商用硬件负载设备（例如出名的F5）成本通常较高（一台几十万上百万很正常），所以在条件允许的情况下我们会采用软负载，软负载解决的两个核心问题是：选谁、转发，其中最著名的是LVS（Linux Virtual Server）。

PS：LVS是四层负载均衡，也就是说建立在OSI模型的第四层——传输层之上，传输层上有我们熟悉的TCP/UDP，LVS支持TCP/UDP的负载均衡。

LVS的转发主要通过修改IP地址（NAT模式，分为源地址修改SNAT和目标地址修改DNAT）、修改目标MAC（DR模式）来实现。有关LVS的详情请参考：http://www.importnew.com/11229.html

（4）代码优化：

　　①多线程：使用多线程的原因：一是IO阻塞，二是多CPU，都是为了最大限度地利用CPU资源，提高系统吞吐能力，改善系统性能；

　　②资源复用：目的是减少开销很大的系统资源的创建和销毁，主要采用两种模式实现：单例（Singleton）和对象池（Object Pool）。例如，在.NET开发中，经常使用到的线程池，数据库连接池等，本质上都是对象池。

　　③数据结构：在不同场合合理使用恰当的数据结构，可以极大优化程序的性能。

　　④垃圾回收：理解垃圾回收机制有助于程序优化和参数调优，以及编写内存安安全的代码。这里主要针对Java（JVM）和C#（CLR）一类的具有GC（垃圾回收机制）的语言。

四、存储性能优化

（1）机械硬盘还是固态硬盘？

　　①机械硬盘：通过马达驱动磁头臂，带动磁头到指定的磁盘位置访问数据。它能够实现快速顺序读写，慢速随机读写。

　　②固态硬盘（又称SSD）：无机械装置，数据存储在可持久记忆的硅晶体上，因此可以像内存一样快速随机访问。

　　在目前的网站应用中，大部分应用访问数据都是随机的，这种情况下SSD具有更好的性能表现，但是性价比有待提升（蛮贵的，么么嗒）。

（2）B+树 vs LSM树

　　①传统关系型数据库广泛采用B+树，B+树是对数据排好序后再存储，加快数据检索速度。

PS：目前大多数DB多采用两级索引的B+树，树的层次最多三层。因此可能需要5次磁盘访问才能更新一条记录（三次磁盘访问获得数据索引及行ID，一次数据文件读操作，一次数据文件写操作，终于知道数据库操作有多麻烦多耗时了）

　　②NoSQL（例如：HBase）产品广泛采用LSM树：

　　具体思想是：将对数据的修改增量保持在内存中，达到指定的大小限制后将这些修改操作批量写入磁盘。不过读取的时候稍微麻烦，需要合并磁盘中历史数据和内存中最近的修改操作，所以写入性能大大提升，读取时可能需要先看是否命中内存，否则需要访问较多的磁盘文件。

　　LSM树的原理是：把一棵大树拆分成N棵小树，它首先写入内存中，随着小树越来越大，内存中的小树会被清除并写入到磁盘中，磁盘中的树定期可以做合并操作，合并成一棵大树，以优化读性能。

　　LSM树的优势在于：在LSM树上进行一次数据更新不需要磁盘访问，在内存即可完成，速度远快于B+树。

五、学习总结

　　对于网站的高性能架构这一章的阅读，通过大牛的书籍我们学到了从三个主要方面的性能优化策略，虽然都是理论，而且还只是浅显地说明，但是对于我们这些广大的开发菜鸟来说，扩展知识面，了解一点优化策略不是一件坏事，我们可以从中注意到日常的代码规范，如何写出高效的代码也是一件值得研究的事儿。在书中，看到了作者写了这样一句话，贴出来与各位正在学习途中的菜鸟们共享：“归根结底，技术是为业务服务的，技术选型和架构决策依赖业务规划乃至企业战略规划，离开业务发展的支撑和驱动，技术走不远，甚至还会迷路”。出来实习了一年多，对这句话感慨颇多，也吃了很多的亏，在和客户的沟通交流上也有了自己的一点感悟，所以贴出来与各位园友共勉。最后，希望作为菜鸟的我们，在技术这条路上能够走得远一些，迷路不重要，重要的是能够迷途知返，么么嗒！再过一个多月，就要开始找工作了，希望在此期间能够认真阅读完自己的计划书单，加油！