这段时间一个集群的服务器的内存出现问题,就将服务切换到另外一边,结果持续出现问题。每天都会报一些貌似很严重的错误,当时疲于查问题,一直怀疑和内存有关,但是一直没证据,日志发给维保,也认为硬件没问题。在内存换好后,没及时切回。结果周末的时候,问题就爆发了。大量的TRACE记录 有几个G,写入慢,查询慢,任何操作都慢。只好采取拿掉压死骆驼身上的那个稻草的方针,以争取时间。这个方法可能是对的方式,但是开发很不爽。好吧,当时采取其它策略也许更好一些,比如,直接切回原来的机器。谁知道呢。硬件问题,直到凌晨切换的时候才展现出来,让运维跟进,实在没精力查了。无论结果怎样,凌晨的时候删掉了几个大表上的索引,索引重建的作业也不再报错了,几个大表的索引也重建了一下。
真是对这个事情很无语啊,早应该切过来的。