一大早,用户打电话说某部门的服务器到天平的连接存在问题,有时可以telnet到8014端口,有时无法telnet。另外现场人员把所有天平都接到一台8port交换机上进行测试,发现此时电脑可以telnet到每一台的天平的8014端口,可是一旦接入到网络中,故障现象又再次出现。为什么?

到达用户现场,把电脑接入到网络中,PING每一台天平设备,发现设备都是可以PING通的,但是telnet的时候发现,有的天平可以成功telnet,有的无法登录。把所有天平都接到8port交换机,然后与网络断开,再次测试,的确与客户说的相同。

检查接入交换机与汇聚交换机的连接接口以及汇聚交换机与核心交换机的连接接口,都没有发现明显的异常。检查接入交换机、汇聚交换机的CPU、内存使用也没有发现什么异常。把能检查的都检查了一遍,仍然没有发现问题。

没有办法只能抓包看看,希望能有所发现。在抓包的同时,用另一台电脑对所有天平发起telnet测试,发现如下问题:

tianping1.jpg

TCP Retransmission,TCP重传?为什么为出现TCP重传?只是一台天平,难道还处理不过来?

再次检查连接该天平的交换机接口

SDYC-WYLZ#sh int f0/34
FastEthernet0/34 is up, line protocol is up (connected)
  Hardware is Fast Ethernet, address is 001b.0cec.86a2 (bia 001b.0cec.86a2)
  MTU 1500 bytes, BW 100000 Kbit, DLY 100 usec,
     reliability 255/255, txload 1/255, rxload 1/255
  Encapsulation ARPA, loopback not set
  Keepalive set (10 sec)
  Half-duplex, 100Mb/s, media type is 10/100BaseTX
  input flow-control is off, output flow-control is unsupported
  ARP type: ARPA, ARP Timeout 04:00:00
  Last input never, output 00:00:01, output hang never
  Last clearing of "show interface" counters never
  Input queue: 0/75/0/0 (size/max/drops/flushes); Total output drops: 0
  Queueing strategy: fifo
  Output queue: 0/40 (size/max)
  5 minute input rate 0 bits/sec, 0 packets/sec
  5 minute output rate 1000 bits/sec, 1 packets/sec
     5380147 packets input, 374284585 bytes, 0 no buffer
     Received 23 broadcasts (0 multicasts)
     0 runts, 0 giants, 0 throttles
     0 input errors, 0 CRC, 0 frame, 0 overrun, 0 ignored
     0 watchdog, 0 multicast, 0 pause input
     0 input packets with dribble condition detected
     12089172 packets output, 901723451 bytes, 0 underruns
     0 output errors, 40 collisions, 1 interface resets
     0 babbles, 0 late collision, 0 deferred
     0 lost carrier, 0 no carrier, 0 PAUSE output
     0 output buffer failures, 0 output buffers swapped out

通过检查发现该接口工作在半双工模式下,再查看其它天平,发现其它天平的连接接口也工作在半双工模式下。走到这里,似乎发现了问题。

分析:

在半双工模式下,信息既可由A传到B,也能由B传A,但同一时刻只能有一个方向进行数据传输。当天秤A向终端B发送数据时,终端C是无法telnet到天秤A的。之前把天秤的网线都接到小交换机上单独进行测试,那种情况下天秤不会向其它天秤或是测试电脑进行主动的数据传输,所以当测试电脑对五台天秤设备进行telnet测试时,都可以测试通过。而当把小交换机同接入交换机或是汇聚交换机进行连接后,网络中的其它IP再次同天秤进行通信,这时再次telnet,就会出现有的可以telnet上,有的telnet不上的情况。

后来把汇聚交换机上关天平的VLAN删除再次进行了测试,发现在接入交换机上都可以直接telnet到所有的天平,再次恢复这个VLAN,同时抓包,发现此时有其它IP同天平进行通信,再次测试就会发现有的天平无法telnet成功。

走到这里,已经找了问题。

不过我唯一不解的是都现在了,为什么天平的上网卡还是半双工的,难道跟天平的工作原理有关,需要半双工?这个就不得而知了。

半双工的故障,还真是活久见了!