任何一个牛B的“大”软件,都有一段“重启”的苦B经历

淘宝:
——《淘宝技术这十年》
替换完数据库,时间到了2004年春天,数据的连接放在SQL Relay之后就“噩梦”不断,这个代理服务经常会死锁,如同之前的MySQL死锁一样。虽然多隆做了很多修改,但当时那个版本内部处理的逻辑不对,问题很多,唯一解决的办法就是“重启”它的服务。这在白天还好,连接上机房的服务器,把进程杀掉,然后开启就可以了,但是最痛苦的是它在晚上也要死掉,于是工程师们不得不24小时开着手机,一旦收到“SQL Relay进程挂起”的短信,就从梦中醒来,打开电脑,连上机房,重启服务。后来干脆每天睡觉之前先重启一下。做这事最多的据说是三丰,他现在是淘宝网的总裁。
SQL Relay的问题搞得三丰他们很难睡个囫囵觉,那一年开半年会的时候,公司特地给三丰颁了一个奖项,对他表示深切的安慰。


华为:
——《华为研发》
由于电信局急于放号,因为已经收了用户的钱,在交换机刚能打通电话,还没有详细测试的时候,就割接上线了。但交换机还有很多问题,大家只好白天睡觉,晚上看没什么人打电话的时候就开始调试,解决遗留的问题。最大的问题是电话通话的时隙被占用而没有释放。在程控交换机里,一个话路占用一个时隙。当用户拨打电话的时候申请一个时隙,挂机时释放时隙。由于程序处理的错误,有时会忘记释放时隙。这个问题在模拟调试的时候没有出现,但在真实的环境中出现了,并且不知道是在什么情况下出现的,很难跟踪和解决。在跟踪了一个多星期后,大家都想放弃了。
考虑到这个问题如果累计下去,所有的交换机时隙资源会被用完,整个交换机就等于瘫痪了,于是大家采用了一个临时的解决方案:在软件中设置了每天夜里2点软件重启动的功能,将所有时隙资源清零释放掉,大家称为“半夜鸡叫”。如果有用户这时候正在打电话,那对不起了,电话突然断线。在C&C08交换机中,“半夜鸡叫”维持了有大半年的时间,经过了多次版本升级后才得到解决。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值