基于Java技术的大型网站架构方案

大型网站建议使用 PHP + Java

1、Web层

主体架构可以基于 Struts 1.X/2.X,当然有很多更好的控制层框架供选择,以快速敏捷为准则吧。 
抽象出核心库封装 控制器和中间层的操作。 
在大规模集群环境下,session复制会引起严重的性能问题。考虑用 集群缓存 + cookie验证 代替session实现权限控制吧。 
2、Cache层
配置 Memcache 组成集群缓存 
对 Memcache 客户端进行封装 
Memcached 节点组成池,调用示意:opList (BizName, 策略 ...)
3、中间层
“中间层”可以理解为基于应用和数据之间的层次。它被设计用来为Web应用提供:数据缓存 和 对应用透明的数据访问——即应用不需要考虑数据表拆分的问题。以服务的方式提供对存储层的高性能调用以及分布式计算。可供选择的框架:ICE 、Hadoop 直接基于Memcache开发(减少复杂度,推荐) 
4、存储
推荐MySQL,理由:免费,经过实践检验,有大量成熟的案例、解决方案、技术支持。
小规模:一个 data table 维护存储服务器阵列,内容 -> mount …… 
大规模:Master-Slave模式+MySQL Proxy,实现数据库读写分离。在中间层的包装下,可做如下扩展,以支持更大规模的数据存取: 
数据库/表水平拆分,例 User -> User33% + User33% + User34% 
数据库/表垂直拆分,例 User -> UserBaseInfo + UserAddrInfo 
也可考虑使用 LongStore (龙存) 解决方案,由龙存管理存储阵列……
5、部署
划分子域名,每个子域名一个Web应用包,互不干扰 
静态资源(css, js, image ...)使用专门的静态服务器 
6、负载均衡
小规模:DNS轮询。
大规模:F5, 2*X 台F5服务器,F5是L4/L7层交换机,每台至少可处理200万连接(与服务器内存有关)。
Ngnix是L7层交换,LVS负载均衡也是一种方案
7、Web中间件选择
Tomcat - 最高400并发 
Apache - 最高2000并发 
Ngnix - 优于Apache 
采用方案:Ngnix + Resin ,理由:
Resin提供更为快速的servlet引擎 - 选择Resin。 
gzip问题 - Resin在单独处理gzip时存在内存溢出的隐患,因此要加一层 Ngnix。 
Ngnix 能减少单独使用Resin时的内存占用 - Resin建立1000个连接使用1000个线程;加Ngnix后,透过其“异步连接”、“建立长连接”机制使Resin内存压力大大减小。 
Ngnix 针对Linux系统有性能优化措施 - 0 Copy, send file ... 
因此采用:1 Ngnix + 1 Resin,一对一。
静态服务器采用:Squid + Apache, why? because Squid has cache ability ...
新变化 - Nginx从0.7.48版本开始,支持了类似Squid的缓存功能。这个缓存是把URL及相关组合当作Key,用md5编码哈希后保存在硬盘上,所以它可以支持任意URL链接,同时也支持 404/301/302 这样的非200状态码。虽然目前官方的Nginx Web缓存服务只能为指定URL或状态码设置过期时间,不支持类似Squid的PURGE指令,手动清除指定缓存页面,但是,通过一个第三方的Nginx 模块,可以清除指定URL的缓存。
Nginx的Web缓存服务主要由proxy_cache相关指令集和fastcgi_cache相关指令集构成,前者用于反向代理时,对后端内容源服务器进行缓存,后者主要用于对FastCGI的动态程序进行缓存。两者的功能基本上一样。
最新的Nginx 0.8.31版本,proxy_cache和fastcgi_cache已经比较完善,加上第三方的ngx_cache_purge模块(用于清除指定 URL的缓存),已经可以完全取代Squid。有的网站已经在生产环境使用了 Nginx 的 proxy_cache 缓存功能超过两个月,十分稳定,速度不逊于 Squid。
在功能上,Nginx已经具备Squid所拥有的Web缓存加速功能、清除指定URL缓存的功能。而在性能上,Nginx对多核CPU的利用,胜过 Squid不少。另外,在反向代理、负载均衡、健康检查、后端服务器故障转移、Rewrite重写、易用性上,Nginx也比Squid强大得多。这使得一台Nginx可以同时作为"负载均衡服务器"与"Web缓存服务器"来使用。以下是配置片段供参考:
view plaincopy to clipboardprint?
http    
{   
  ...   
  client_body_buffer_size  512k;   
  proxy_connect_timeout    5;   
  proxy_read_timeout       60;   
  proxy_send_timeout       5;   
  proxy_buffer_size        16k;   
  proxy_buffers            4 64k;   
  proxy_busy_buffers_size 128k;   
  proxy_temp_file_write_size 128k;   
  ...  
  #注:proxy_temp_path和proxy_cache_path指定的路径必须在同一分区   
  proxy_temp_path   /data0/proxy_temp_dir;  
  #设置Web缓存区名称为cache_one,内存缓存空间大小为200MB,1天清理一次缓存,硬盘缓存空间大小为30GB。   
  proxy_cache_path  /data0/proxy_cache_dir  levels=1:2   keys_zone=cache_one:200m inactive=1d max_size=30g;   
}   
server   
{   
  ...   
  location /   
  {  
    #如果后端的服务器返回502、504、执行超时等错误,自动将请求转发到upstream负载均衡池中的另一台服务器,实现故障转移。   
    proxy_next_upstream http_502 http_504 error timeout invalid_header;   
    proxy_cache cache_one;  
    #对不同的HTTP状态码设置不同的缓存时间   
    proxy_cache_valid  200 304 12h;   
    proxy_cache_valid  301 302 1h;  
    #以域名、URI、参数组合成Web缓存的Key值,Nginx根据Key值哈希,存储缓存内容到二级缓存目录内   
    proxy_cache_key $host$uri$is_args$args;   
    proxy_set_header Host  $host;   
    proxy_set_header X-Forwarded-For  $remote_addr;   
    proxy_pass http://backend_server;   
    expires      1d;   
  }  
  #用于清除缓存,假设一个URL为http://192.168.1.44/test.txt,通过访问http://192.168.4.44/purge/test.txt就可以清除该URL的缓存。   
  location ~ /purge(/.*)   
  {  
    #设置只允许指定的IP或IP段才可以清除URL缓存。   
    allow            127.0.0.1;   
    allow            192.168.0.0/16;   
    deny            all;   
    proxy_cache_purge    cache_one   $host$1$is_args$args;   
  }      
  #扩展名以.php、.jsp、.cgi结尾的动态应用程序不缓存。   
  location ~ .*\.(php|jsp|cgi)?$   
  {   
    proxy_set_header Host  $host;   
    proxy_set_header X-Forwarded-For  $remote_addr;   
    proxy_pass http://backend_server;   
  }   

同时,对于影响页面展现的静态资源,例如:css, js 等可以放在具有优质带宽的IDC(IDC=互联网数据中心,优质/高速的带宽也比较贵,正所谓一份价钱一分货);其他的静态资源,如图片等可以放在价格相对低廉的IDC中,以域名区分两种静态资源,节省每一分钱。
8、网络拓扑图
         / Ngnix - 1:1 - Resin 
F5 --
         \ Squid - 1:n - Apache

9、监控统计平台
业务统计 - 用户访问统计 
软件性能 - 应用系统监控,例如:请求响应时间…… 
硬件/网络性能 - Ganglia监控 
10、其它要点
IE浏览器对同一域名(包括子域名)只能建立2个连接,连接多了只能排队…… 
双F5架构,两台职能划分不同,镜像,心跳接管…… 
Raid存储阵列…… 
Linux操作系统及其优化……


对大型网站技术架构的初解

2012-01-16 09:54 夏天的森林 博客园  字号: T |  T
一键收藏,随时查看,分享好友!

我们这里将记述一位新接触到大型网站技术架构的程序员,他对于大型网站架构的初步理解。

AD:WOT2014课程推荐:实战MSA:用开源软件搭建微服务系统

刚刚进入了一家新公司,哎在上海混了这么多年,终于到了一家像样的公司,想想这个过程还真不容易啊,一定得要好好珍惜了,不废话了,开始我的内容了。

我现在的项目组的确是做纯正大网站的项目组,虽然现在还没做开发,对公司框架还没完全熟悉,但是对公司的架构的初步了解(初解)觉得还真有价值,都说大型网站应用的开发和普通的web项目不一样,但是你没有做过大型网站终究还是不能理解它的技术结构和我们常用的技术框架结构有何不同。在讲之前我要申明:我是一名java工程师,所以我讲的技术都是以java技术为基础,或许其他技术实现同样的功能会有所不同,但我相信主要思想一定是相似的。

普通的javaweb项目就是按照mvc模式进行的,在前面的博文里我也写了一个非常简单的ssi的框架(struts2+ibatis+spring),这种架构只适合中小心的管理软件或者是中小型的网站,到了大点的应用项目它的局限性就大了。我今天仔细想想,这个局限性的症结就是不管我们如何绞尽脑汁为项目进行逻辑分层从而降低层与层之间的耦合度,任然摆脱不了各个逻辑层任然在同一个项目下面的现实,这就导致各层的耦合度永远都会有一个瓶颈区,因此导致一些更加有效的优化和安全处理实在很难进行下去,而更大型的项目往往会对优化和安全要求更高,这样的项目状态实在很难满足大型项目的需求。

我新公司的框架里对于这样的局限性有了一种很好的解决方案,下面是我新公司技术框架的架构图(这是我自己画的,时间仓促画的不好还请大伙多多包含了):

我现在定位主要做前端,所以对于后台的服务端与数据库的交互是不是也是通过通讯层来进行的这个我不太确定,不过我个人认为不太会,因为如果把数据库和程序之间的sql语句替换成通信报文,这是一件太难的事情,而且效果往往也不太好,所以我的理解是后台服务器和数据库没有别的通讯层,对于java而言就是直接通过jdbc对数据库进行操作,另外客户机到前端服务器集群直接的路由设备,我个人猜测这个路由设备大致完成下面的工作:

解析域名,找到对应的ip地址列表,这就是通常所说的DNS吧;

对客户的请求做负载均衡操作。大型的工作这些操作更多还是通过硬件设备完成,而小点的公司估计是通过软件来实现。

(对于上面的内容,我个人了解不多,但是很感兴趣如果有那位童鞋了解这些可以给我讲解下。)

这样的架构带来的好处有那些了,这里我把我知道的总结如下(如果那位童鞋有更好的意见可以补充啊):

前端和服务端独立成项,那么如果客户访问的是静态资源可以不用请求到服务端程序,而是从客户端处理完直接返回到客户端,当遇到服务端请求时候就会和服务端通信,这样的结果会使系统更快,因为静态资源的访问速度总会比服务端要快。这样就处分了不同性质请求,可以让我们根据最佳的办法处理不同客户端请求。

前端程序和服务端程序之间有一个通讯层,也就是说前端程序和服务端程序不是直接进行访问的,它们之间有我们专门编写的通讯协议(数据报文),那么如果黑客侵入到了客户端,想通过客户端程序直接访问服务端的数据不是那么容易了,这样大大的提高了系统的安全性。这里附带提一下,很高兴新公司的架构里通讯报文是采取的json格式很符合我前面博文里讲到的用键值对做通讯格式的构想。

按照网络安全的要求,大型网站的核心服务器一般都不是和外网相连,核心服务器集群往往是在一个独立内网环境,和外网的沟通都是通过一些特殊授权的服务器进行,这样能保证整个核心服务器集群不会被外人轻易的访问到,服务端程序和客户端程序的分离正好体现了这个原理,服务端程序往往都是系统的核心所在,它和客户端的通讯要通过我们的客户端程序,这对于我们建立合理的安全保障机制提供了方便。

我想很多童鞋估计都做过大型网站的开发,所以上面这些内容对这样的童鞋一定不陌生,或许有些人还会觉得我的见解很浅陋吧,其实我到现在还没做过真正的大型的网站项目,更不用说大型网站的架构设计,所以对这些很新奇。不过当我看我公司的技术架构的确是眼前一亮,这个亮眼之处倒不是我上面提到的这些而是他们对maven的使用,公司的前辈们用maven很好组织了整个项目的技术架构。大家可以试试想想,不管你的系统设计的如何复杂它们毕竟只有被组合起来才是一个完整的项目,把一个大项目拆分成若干小项目这样的思想固然很好,但是实际开发中这样做却是困难丛丛啊。假如我们把每块都独立立项,大伙都分头行事,做完后在一起联调合并,我想结果肯定是痛苦的,痛苦的原因就是软件标准化在中国实在太难,各个不同项目组独立开发一定会带来各个项目之间异构性的问题,异构性导致合并项目很不容易,而解决异构性的办法就是有效的沟通,但这样的沟通成本或许会成为我们开发人员们不能承受之痛。

公司的架构是通过maven来进行管理的,架构里包含了若干的项目,其中有一个项目是其他项目的根项目,其他项目之间也存在各种不同的依赖关系,大伙看下图,这个用语言实在说不清楚:

通过maven就能把这些项目很好的融合到一起,我们只要构建了根项目那么整个项目都会被成功的构建。而且还能把项目里公共的部分抽取出来,形成通用模块,让我们server和client项目进行瘦身,让我们的核心项目更加的健壮。

Maven以前我不太熟悉,今天我发现这个技术是很值得学习的,它和ant相比,maven站的高度更高,甚至可以影响到你程序的架构设计,我就想做成架构师,而且要是大型系统的架构师,那么maven一定要好好学习,说干就干,马上开始。

原文链接:http://www.cnblogs.com/sharpxiajun/archive/2012/01/15/2322668.html


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值