目录
背景
在使用greenplum5.20做跑批任务的时候,报了一个这样的错误,期初以为是应用的错误,就一直在应用层排错,找了好久,试过了各种方式,包括找GreenPlum原厂的人,改了各种参数,都不解决;后来在系统日志/var/log/messages里面发现了如下错误:
解决途径
把系统日志打了个包给红帽提了case;
再继续催GreenPlum想办法;
运维自己排查网络和硬件的问题;
临时解决
迫于上线的压力,厂商给了一个方法,就是修改数据节点和master节点之间的通信协议。由UDP改成TCP,竟然奇迹般的不再报错了
最终解决
红帽厂家最终给了回复,说他们系统内核有一个bug,需要修复,很快,我们运维就进行了修复,使用下面这条命令:
yum -y install kernel
问题解决和总结
起初,一直想的是网络的问题,比如网卡,交互机,网线,驱动等等,但是排查下来都不是,最后锁定在系统的bug和应用GreenPlum,最后临时解决方案验证通过之后,就开始怀疑人生了,真没有想到会是红帽的问题,为这一段历史做个总结,这个问题真的是找了好久,最终解决了真好。