自从近日说了一句“cdh看来还是稳定,2年没出问题了!”接二连三的事情就来咯!

        现象:
        image.png

        万兆卡 硬盘IO正常  网络速率也没有占用到1M级别  但是 scp 简单测 KB级??
        

        这么慢的速率并不是一开始就这样,都知道加入到cdh里边的主机都需要获取相关的parcel, 在分发的时候是未发现异常的。

        加入节点后,开始做数据的balancer ,一觉起来,spark任务无法启动,hive任务无法启动(其实还有一台老机器挂掉  对故障的排查影响颇深  内存的硬件问题!)
                
        


        解决:
        

        经过一天的排查(包含宕机的机器),故障锁定到了并入机器的网络确实有问题,(从交换机 光模块  光纤线   光纤口 一步步定位) 当时还有很多的无法用言语表达的测试现象(比如拔了插  插了拔   哟~  又可以了 速率又上来了。)


        直到第二天,华为的研发也打飞滴过来解决(最后也只是说 centos对该网卡的驱动版本比较低 先升级试试  当然最后的结论是没错的)


        不过因为别人研发都来了我也没事,手贱也进行了系统层的排查发现了如下东东:

image.png

            内核报错?硬盘??后来我查了很多的资料 这篇文章给了我灵感 +手贱 貌似找到了出现问题的 根本现象 和  基于软件的解决方法!

            https://unix.stackexchange.com/questions/267216/cpu-13-pid-15452-comm-ssd-blk-0-tainted-g-b-i-e-3-19-0-1
            

            貌似和内存有关系,然后喵了一眼。

image.png    
            
            但是我看了所有的机器,buff/cache 都是和配置的百分比爆满状态,会不会这个会影响到呢?当时我的想法,然后反正清空没什么大的影响,死马当活马医,试试。。  echo 3 > 清空的命令一执行,666  网络速度就上去了。(神奇真神奇)

            后来驱动也成功更新了,也用了该现象的测试方法,不再出现该问题。 


            基本上定性为 驱动 影响了带宽   现象  速率慢也可以使用清空 buff/cache 来解决! 

            贴下型号:

            华为 2288H V5  比较新的设备(2018年10月还是11月出厂的)  

            网卡信息:Ethernet controller: Broadcom Limited NetXtreme II BCM57800 1/10 Gigabit Ethernet