持续的监控和报警,特别是系统最关键的资源(cpu,内存,网络,线程池中可用线程数等)无论你的测试环境做的多好,它都不是生产环境,学会定位生产问题很重要系统应该能够快速回滚,快速迭代。把不同功能系统拆分开来日常情况不一定是坏情况,你的系统在最坏情况下能否扛得住很关键快速失败,不要尝试自以为很聪明的恢复方式你的容错模式是不是可扩展的?