大型商业网站的基础架构解析

         今天在西部在线群里碰到一个玩笑争论,就是人工进行大数据量更新的问题。刚好也在考虑高并发量大型商业网站的技术和运营架构,暂且将一些思路写下来,提醒自己,顺便抛砖引玉了。有些数据,为了更形象的说明问题,在丝毫不影响分析的前提下,做了取整。同时,为了观察和验证分析结果是否准确,最后也参考了少许sina网站的公开商业数据。

        下面我就结合技术、商业、综合成本等各类因素,贯穿行走,随意展开,尽量展现一个大型资讯商业站的全部基础架构。当然了,我得声明,这仅仅是我的一个分析而已,一是比较粗劣,二是含有些许猜测的成分。呵呵,聊胜于无,大家权且凑合看吧……

        目前的大型商业网站,日访问量都在数千万,甚至数亿频次。一天共计是86400秒,1440分钟;8小时则是28800秒,480分钟。如果按秒计算平均值,日均千万的平均访问频度是116人次/秒,平均一人打开3个连接,并发连接就是每秒350个;如果一天按8小时计算,平均访问变成350人次/秒,并发连接就是每秒1040。这样下来,其实对系统的负载压力并不大,如果只是一般性图文数据访问,好点的PC Server就可以基本应付这样的访问。

        但在实际生活中,人们的访问往往并不是按照我们的期望进行。就像公交车一样,平常空空荡荡的,仅仅几个人坐在车上,可是在早班和晚班以及周末时刻的高峰期,它就是那么挤!!电梯系统也有类似特点。同样的,这1000万人次的访问量,还就是集中在上午和傍晚那么几个小时里。而访问的高峰期,可能也就一个小时吧。这样来看,按3小时共计约1万秒计算,平均访问频度变成1000人次/秒,并发连接就是每秒3000个。在这个世界上有个统计性的经验规律——二八原理,并且根据CNNIC的第20次报告来看,约70%的网民上网高峰期集中到了晚21点。当然了,这其中有斗地主的、有看视频的、有访问网站的……那么,我们可以这样计算高峰期访问量,可以近似的把网站的千万访问量取一半来核算。一小时3600秒,那么,高峰期的平均访问量变成1390人次,并发连接为每秒4000个;如果再按二八原理对高峰期的一小时进行统计分析,就可以把高峰期这一个小时的近似精准量算出来了。那么取25%的时段900秒,取高峰期70%的量350万来计算,这可能就接近于真实的访问峰值了;计算结果为3900人次/秒,并发连接每秒约11500。如果按照1M带宽平均三人并发,最多4人并发来计算。这里的一号结论可以出来了,日均访问在千万级大站的访问峰值在4000人次/秒左右,并发连接超过10000/秒,总带宽在2G左右。这个值好像和sina的访问数据已经接近了。

        从商业角度来说,千万级别的访问量,首先是广告价值,我们就假定为资讯站作分析。本地晚报广告一天的千人覆盖价格约75元,乌市分众传媒一天的千人覆盖价格约20元。由此也可以看出分众传媒发展如此之快的原因了吧,还是在于商业效率比报纸高啊。千万级的网站,我们按10元千人覆盖价格计算吧,非常有竞争力了;那么光首页广告的价格一天也是100万以上了。网站会有多少页面那?千万访问级别的网站,页面数量最少百万级别吧,子频道和专题最少近百个吧,平均一个频道10万访问群体,最后就按80个算吧。平均每个子频道首页全部广告一天按5万计算,那可是比报纸便宜多了,而且是全国性的站啊;这下来一天共计也得400万。加上首页和其他所有页面,整个网站一天的广告价值应该超过550万,全年360天总收入为19.8亿。因为并不是每天的业务都是这样,有广告热季超出的,广告低谷达不到的可能要多些,这样除去高低对冲,再降低些,还是二八原理,取理论值的80%可能更接近实际——二号结论是,日均千万级别访问量大站一年的总营收应该超过15.8亿。按网络广告行业普遍利润率40%计,年度利润约在6亿。虽然我是以今天的数据来分析的,不过,不知道是不是真的很巧,sina2005年的年度营收就是15.8亿。

         那么,几百万的页面,100个子频道,需要多少人力呢。每个子频道平均大约可以配置16人,采编外勤8人、高级编辑5人、美工2人、系统支持1人。这样下来内容总计约1600人,平均薪资和费用按每月4000计算;内容团队的年度费用超过7680万。

        从技术上来看,4000人并发,2G带宽,肯定得有自己的数据中心机房了,而且得挂到全国骨干网络节点上去。为了整体系统的可靠运行,起码在异地做个整体机房的备份。也就是同时运行两个机房,不过另外一个机房带宽可以不必太大。由于中国特色的网通、电信互联不互通原因,达到访问带宽2G,就可能需要3G带宽——2G电信、1G网通。为了保证用户的访问体验,那首先就是速度了,其次是稳定性,再次可能就是安全了。当带宽足够的时候,速度瓶颈就在于服务器处理数据的能力了;对于资讯站而言,缓存是个很好的解决方案。既然有如此大规模,当然不在乎小成本了;那么,40万一台的千兆硬件缓存服务器和负载均衡设备就可以考虑了,稳定而且容易维护,花钱也是值得了。3个G带宽,也就是3台了,加上维护,按三年折旧率考虑,年均费用50万吧。3G的专线光纤,大约500万一年吧,备份机房按双百兆算大约一年150万吧。百万级的网页,积累上两年,算1000万个页面吧,内容丰富度一般,加上各类广告图片,平均按300KB/页面计算,纯页面数据的存储空间就超过3个TB,每个用户每天平均产生1KB数据,发个表情,评论几句,千万用户一年将产出3.6TB数据,加上系统和未来容量考虑总计起码10TB了。3G带宽的满负载的访问速率,转换成存储接口速率,约380MB/s,目前的PC Server根本挡不住,也无法很好的共享数据啊,必须得用盘阵了。而且为了提高不同数据类型用户的访问命中率,增加稳定性,主要是合理分割文字、图片、邮件、用户数据、少部分音视频,可能得分成三个盘阵;加上备份盘阵,共计放6个盘阵,系统总容量放30个TB吧。这样下来,包括光纤通道卡、光纤交换机、光纤硬盘和管理软件等等,整个盘阵系统大概得200来万,加上维护按三年折旧计算,年度费用约80万了。这么大规模的访问量,服务器多半是采用集群和负载均衡了。那么,按照比较宽松的服务和高性价比原则,配置2U的3.0G双CPU和4G内存的一台高档PC Server能同时接纳100个用户;按3秒的访问持续时间计算,一台服务器一小时能服务约12万网络用户,为了整体系统峰值冗余,算10万用户吧。这下可以计算一下需要多少台服务器了,按目前的配置,大概需要100台高端PC Server,加上数据库、应用、管理等不同类型的计算模式和区域分割,增加25%的数量计算吧,共计125台。另外,可以参照我的另外一篇博文《电脑解惑——兼评软件产业》;如果按5年前的配置,机器性能比现在低的多,平均按低10倍计吧,那5年前的机器数量可能超过1300台。这么大的商站,鉴于品质和价格的折中,多半是选用国产优质品牌的PC Server了,批量采购,一台估计2万左右吧,125台共计250万,按三年折旧计,年度费用约90万。其他一些核心交换机、核心路由器、千兆防火墙,很可能采用华为的设备了,加上DDOS防护设备、标准电信机柜、不间断电源、机房空调、机房布线、监控等等,均采用在线双备份,下来总计可能得900万,按三年折旧计,年度费用约300万。另外,商业电费按2元1度计吧,把所有机房设备均折算成共约150台服务器核算吧;每台设备5小时一度电,年度总电费约50万,好家伙,不算不知道,一算吓一条啊!要是换成5年前的1300台,年度电费就是400多万呢。难怪Google要把数据中心建设到电费比较便宜的北卡罗来纳州去呢,它可是有45万台设备呢。

        最后看看运行的软件配备情况。如果按微软公司的软件系统上,一套开发平台得5万,起码得买个20套吧,共计100万;10用户的windows Server版1万,10用户单CPU MS SQL Server数据库约2万,最近好像出来个限制版本是免费的,但没法子用在这么大的站上啊;如果是不限定用户数量、不限定CPU数量的数据中心版呢?即使批量采购,windows一套最少超过10万吧,MS  SQL Server也起码超过15万了吧。125台得花多少钱,超过3000万,还没算杀毒软件和应用系统软件呢,加上这些估计超过4000万了。要是5年前的1300台,天哪,得花3个亿以上。由此看来,由于硬件性能的提升,导致Windows平台的部署成本在急剧降低了。我说怎么Windows服务器的市场份额好像增长还挺快啊。不过,既然人力成本是算过的;那么,有了近似于免费的Linux和FreeBSD开源体系了,干吗还花冤枉钱呢?别跟我提D版windows平台,这么大站点,法律风险太大啦。Linux/FreeBSD+Ext3/UFS2+Apache+PHP/Python+MySQL/PostGreSQL+OpenSSL已经很成熟了啊!用它们管理几十个TB的数据能轻松胜任。何况,人家开源的系统好像更安全、更稳定、更便于定制啊!这也是sina、yahoo用FreeBSD,Google、baidu用Linux的最大原因了吧……

        这样算下来,采用开源软件体系的机房加备份机房的运行费用,不计人力和意外,每年总计超过1200万。

        而整个技术团队的配备,根据这个系统的规模和特点粗劣估计,起码编制在180人左右,分别是软件研发25人、系统维护25人、数据库20人、需求和架构25人、界面20人、测试50人、技术管理15人。既然是全国性的大型商站,所需要的人才也多半是顶尖级别的;那么,技术团队的平均薪资和花费定位在每月10000左右吧。这样下来,技术团队的年度费用是2160万左右。

        当然了,商业网站的四个支撑点——技术、内容、营销、运营,那是缺一不可的。但后二者具有更强的关联性,权且放到一起统计了。

        营销团队的建设对整个盈利而言是个关键,这直接关系到现金能否汇流啊。而营销人员往往是低工资高提成激励性质。整个营销团队的普遍提成应该在薪资的4倍以上,而能拿到提成的人员数量应该放在40%左右的比例,那会更容易激励整体团队,多了和少了反而降低整体士气,消磨营销人员的积极性。

        作为一个全国性大型商业网站而言,营销团队可以根据广告市场来划分大区管理。而70%的广告市场都在东部,因此又可以将东部区域作为市场重点。另外,也可以参考按城市人口数量和城市规模划分重点市场管辖城市,建立渠道合作体系以及代理商体系。那么,13个特大百万人口城市可以每个城市放6个人;80个50万人口大型城市可以每个城市放3人;30个省区每个省区放4人;加上主管,共计约450人。营销团队的平均薪资和花费定位在每月2500左右吧,但其中40%的人提成应该是薪资的4倍。这样下来,整个营销团队的年度薪资总额为1350万,提成总额约2160万,整个年度人力费用约3510万。而对于整个营销部门的推广、宣传、市场调查等营销成本的支出,按经验预计,起码占人力成本的40%左右吧,这样下来,年度营销成本最少在1400万了。

        最后时刻,可以看看整体的运营成本了。当然了,先得看看运营管理人员的数量配备。按一般规范公司的经验配置,运营管理人员应该大致在12%左右。我们就按前面的人员数量倒推了。那么,运管人员就应该在300人左右了。而运管人员的平均薪资和费用应该低于技术,而略高于其职务人员,定位在每月5000元吧。这样下来,运管人员的年度人力费用约为1800万。当然了,有些重点骨干是拿百万年薪的,这样的人参照总人员数量的1.6%吧,计约40人,年度总计4000万。

       而行政运行费用,可以按标准人员消耗来估算,总人员数量约2500人。每个人无非是用电脑、电话、网络、打印、差旅、福利、场所等等费用。品牌机的年度使用成本,加上软件和办公网络大致为1500元;电话月度人均费用可以放到100元、网络费用可以总计为百兆独享的专线年度为100万、打印可以计为人均每月100页算上打印折旧和消耗每页0.25元、差旅福利可以计人均年度1500元、年度人均水电和场所消耗约2500元、其他设施2000元。这样下来,整体的行政运行费用,大致为2350万。

        另外呢,主要就是税费了。广告行业的税率,营业税本土按7%来计算,企业所得按新税法报25%吧;那么,15.8的收入缴纳营业税1.1亿,6亿的利润,缴纳企业所得税1.5亿,另外加上些行政性收费约3亿吧。

        我们现在来看看年度成本汇算吧,取整计算。内容人员1600人,人力开支7700万;技术人员180人,人力开支2200万,系统设施开支1200万;营销人员450人,人力开支3500万,营销开支1400万;运管300人,人力开支5800万;企业行政开支2400万;企业纳税和行政缴费3亿;所有年度费用总计约5.5亿。

        结论三出来了,一个日均访问超过千万级别的大型商业网站,人员数量应该数以千计,年度营收应该超过10亿,利润应该超过4亿。

        按我的分析和估测,年度总营收超过15.8亿,总成本5.5亿,应该有10亿的利润,利润率应该在60%了。可是行业通行的利润率却大部分显示为40%以内。即便我少算了些开支,也许技术团队人员太少了,营销开支太少了,加上税率33%到新税率25%的变化等等;不过也不至于差距这么大啊。看来,里面好像也是有文章了,我说好像除了听阿里巴巴纳税比较多以外,怎么就没听到其他大型商业站缴纳多少税款呢?不好说,说不好了啊!中国特色吗!当然了,也不排除人家全用IBM高端设备、备用机房都建了四个,一半的人员拿年薪呢。毕竟我是在保证基础品质的情况下,按比较节约的情况去做统计分析的。真实情况到底如何,只有大家自己思索了……
  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值