淘宝:
——《淘宝技术这十年》
替换完数据库,时间到了2004年春天,数据的连接放在SQL Relay之后就“噩梦”不断,这个代理服务经常会死锁,如同之前的MySQL死锁一样。虽然多隆做了很多修改,但当时那个版本内部处理的逻辑不对,问题很多,唯一解决的办法就是“重启”它的服务。这在白天还好,连接上机房的服务器,把进程杀掉,然后开启就可以了,但是最痛苦的是它在晚上也要死掉,于是工程师们不得不24小时开着手机,一旦收到“SQL Relay进程挂起”的短信,就从梦中醒来,打开电脑,连上机房,重启服务。后来干脆每天睡觉之前先重启一下。做这事最多的据说是三丰,他现在是淘宝网的总裁。
SQL Relay的问题搞得三丰他们很难睡个囫囵觉,那一年开半年会的时候,公司特地给三丰颁了一个奖项,对他表示深切的安慰。
华为:
——《华为研发》
由于电信局急于放号,因为已经收了用户的钱,在交换机刚能打通电话,还没有详细测试的时候,就割接上线了。但交换机还有很多问题,大家只好白天睡觉,晚上看没什么人打电话的时候就开始调试,解决遗留的问题。最大的问题是电话通话的时隙被占用而没有释放。在程控交换机里,一个话路占用一个时隙。当用户拨打电话的时候申请一个时隙,挂机时释放时隙。由于程序处理的错误,有时会忘记释放时隙。这个问题在模拟调试的时候没有出现,但在真实的环境中出现了,并且不知道是在什么情况下出现的,很难跟踪和解决。在跟踪了一个多星期后,大家都想放弃了。
考虑到这个问题如果累计下去,所有的交换机时隙资源会被用完,整个交换机就等于瘫痪了,于是大家采用了一个临时的解决方案:在软件中设置了每天夜里2点软件重启动的功能,将所有时隙资源清零释放掉,大家称为“半夜鸡叫”。如果有用户这时候正在打电话,那对不起了,电话突然断线。在C&C08交换机中,“半夜鸡叫”维持了有大半年的时间,经过了多次版本升级后才得到解决。
——《淘宝技术这十年》
替换完数据库,时间到了2004年春天,数据的连接放在SQL Relay之后就“噩梦”不断,这个代理服务经常会死锁,如同之前的MySQL死锁一样。虽然多隆做了很多修改,但当时那个版本内部处理的逻辑不对,问题很多,唯一解决的办法就是“重启”它的服务。这在白天还好,连接上机房的服务器,把进程杀掉,然后开启就可以了,但是最痛苦的是它在晚上也要死掉,于是工程师们不得不24小时开着手机,一旦收到“SQL Relay进程挂起”的短信,就从梦中醒来,打开电脑,连上机房,重启服务。后来干脆每天睡觉之前先重启一下。做这事最多的据说是三丰,他现在是淘宝网的总裁。
SQL Relay的问题搞得三丰他们很难睡个囫囵觉,那一年开半年会的时候,公司特地给三丰颁了一个奖项,对他表示深切的安慰。
华为:
——《华为研发》
由于电信局急于放号,因为已经收了用户的钱,在交换机刚能打通电话,还没有详细测试的时候,就割接上线了。但交换机还有很多问题,大家只好白天睡觉,晚上看没什么人打电话的时候就开始调试,解决遗留的问题。最大的问题是电话通话的时隙被占用而没有释放。在程控交换机里,一个话路占用一个时隙。当用户拨打电话的时候申请一个时隙,挂机时释放时隙。由于程序处理的错误,有时会忘记释放时隙。这个问题在模拟调试的时候没有出现,但在真实的环境中出现了,并且不知道是在什么情况下出现的,很难跟踪和解决。在跟踪了一个多星期后,大家都想放弃了。
考虑到这个问题如果累计下去,所有的交换机时隙资源会被用完,整个交换机就等于瘫痪了,于是大家采用了一个临时的解决方案:在软件中设置了每天夜里2点软件重启动的功能,将所有时隙资源清零释放掉,大家称为“半夜鸡叫”。如果有用户这时候正在打电话,那对不起了,电话突然断线。在C&C08交换机中,“半夜鸡叫”维持了有大半年的时间,经过了多次版本升级后才得到解决。