当一个系统已经在运行的时候,如果发现了一个bug怎么办?
好办,改了代码,扔上服务器重启服务呗。
可是,如果这个服务不能停呢?这里有一个实际的例子:
1998年时,NASA 在执行深空1号任务时,发现飞行器上一段控制实验用的lisp代码有一个竞争条件(race condition) 的bug ,在地面测试的时候没有捕获。此时已经距离发射一年半了,飞行器在 1亿英里之外的太空中。而这个程序可以在运行的时候,允许调试,并有一个REPL环境(Read-Eval-Print-Loop),这样程序员可以在地面远程(确实很远)连接到飞行器上正在运行的Lisp进程,调试修复代码。
一个程序员这样描述:调试一个一亿英里外价值一亿美元的硬件上的代码是很有趣的经历。