VMware vSphere 5.1 提供了4种SCSI控制器的类型可选:

BUS Logic

LSI logic 并行

LSI logic SAS

Vmware准虚拟(PVSCSI)

在 Guest操作系统安装好后 通常是不能更改SCSI控制器类型的 更改后,操作系统会不能启动。

基于某些原因,在测试环境中 :

ESXI5.1 |Centos 5.9 X86_64|  内核2.6.18-348.el5|  LSI 1028/8i SAS控制器  |hadoop|solr|hbase|..


估计在磁盘读写并发大的情况下 几乎所有vhost都出现了

**************************************************************************************************************************************************************

mptscsih: ioc0: attempting task abort! (sc=ffff8104ab981980)

Nov 21 15:52:01 node1006 kernel: sd 0:0:4:0:

Nov 21 15:52:01 node1006 kernel:         command: Write(10): 2a 00 07 27 79 c8 00 00 08 00

Nov 21 15:52:01 node1006 kernel: mptscsih: ioc0: WARNING - Issuing Reset from mptscsih_IssueTaskMgmt!! doorbell=0x24000000

Nov 21 15:52:01 node1006 kernel: mptbase: ioc0: Initiating recovery

Nov 21 15:52:01 node1006 kernel: mptscsih: ioc0: task abort: SUCCESS (rv=2002) (sc=ffff8104ab981980)

Nov 21 15:52:01 node1006 kernel: mptscsih: ioc0: attempting task abort! (sc=ffff810527c8b800)

Nov 21 15:52:01 node1006 kernel: sd 0:0:4:0:

Nov 21 15:52:01 node1006 kernel:         command: Write(10): 2a 00 07 24 4f 38 00 04 00 00

Nov 21 15:52:01 node1006 kernel: mptscsih: ioc0: task abort: SUCCESS (rv=2002) (sc=ffff810527c8b800)

Nov 21 15:52:01 node1006 kernel: mptscsih: ioc0: attempting task abort! (sc=ffff8103cbd52680)

Nov 21 15:52:01 node1006 kernel: sd 0:0:4:0:

。。。。

。。。。

。。。。

***************************************************************************************************************************************************************

应用现象是,solr hadoop Dispatcher 等等应用之间,几乎所有的机器不定时出现了no route 的错误 最初以为是防火墙等原因导致;最终发现,所有设备出现noroute的时间 正好对应应用所在服务器上也出现了上述错误。上述错误出现期间 大概3~4分钟时间 磁盘被锁定,取消了当时所有的读写操作并恢复task。

考虑到所有虚机 都选择的是LSI SAS SCSI控制器,可能是其内核驱动MPTSAS与系统,控制器等等的兼容性问题或其他BUG导致。决定将SCSI控制器更改为LSI Logic 并行。

直接更改SCSI控制器 系统肯定是不能启动的;采用步骤:

###########以下是代码#################################
#/bin/bash
cp /boot/initrd-2.6.18-348.el5.img ~skybug/initrd-2.6.18-348.el5.gz   #复制出启动内核镜像
mkdir ~skybug/initrd                                             
cd ~skybug/initrd   
gzip -dc ../initrd-2.6.18-348.el5.gz |cpio -id                     #解包;
cd lib/
cp /lib/modules/2.6.18-348.el5/kernel/drivers/message/fusion/mptspi.ko ./  将mptspi模块拷贝过来(LSI Logic 并行SCSI控制器需要的驱动)
rm -rf mptsas.ko                     #删除mptsas模块(LSI logci SAS 控制器需要的驱动)
chmod 0600 ./mptspi.ko         #授权
cp /lib/modules/2.6.18-348.el5/kernel/drivers/scsi/scsi_transport_spi.ko ./ 复制scsi_transport_spi.ko 模块(modinfo mptspi 可以看到是mptspi的依赖关系)
rm -rf scsi_transport_sas.ko   #删除依赖mptsas的模块
chmod 0600  scsi_transport_spi.ko  #赋权
 rm -rf shpchp.ko         #删除shpchp模块,为什么?不清楚,保留该驱动以及init加载的话,系统卡到kernel panic 无法启动,删除该驱动后正常启动  原因不详 哪个解释下
cd ../
sed -i "s/mptsas.ko/mptspi.ko/g" init    #在init里把mptsas换成mptspi
sed -i "s/scsi_transport_sas.ko/scsi_transport_spi.ko/g" init  #同上
sed -i "/shpchp.ko/d" ./initrd/init”  #删除shpchp模块的加载
cd ../
rm -rf initrd-2.6.18-348.el5.gz
cd initrd
find ./ -depth | cpio -H newc -o > ../initrd-2.6.18-348.el5.cpio     #重新打包启动镜像
cd ../
gzip initrd-2.6.18-348.el5.cpio
mv initrd-2.6.18-348.el5.cpio.gz initrd-2.6.18-348.el5.img   #替换原启动镜像
chmod 0755 /boot/initrd-2.6.18-348.el5.img 
cp initrd-2.6.18-348.el5.img /boot     
chmod 0600 /boot/initrd-2.6.18-348.el5.img
sed -i "s/mptsas/mptspi/g" /etc/modprobe.conf    #修改modprobe配置 改为加载mptspi模块
poweroff 
#####################以上是代码###########

关机后 在Vcenter里 将scsi控制器 类型从LSI Logic SAS 修改为 LSI logic 并行    #只能在guest系统关闭的情况下才能修改

然后给虚拟机加电启动。





************************************************************************************************

至于把控制器改为LSI 并行后 是否会继续出现 系统的磁盘不定期锁定的现象  只有待测试一段时间来确定了