关于使用ISCSI storage 的一点经验
 
背景:
 
公司从2002年开始使用HP B2000作为NAS服务器,去年增加了一个柜子,共挂了两个柜子,数据量大概1TB。因windows 2000 SP2以上补丁与Syamntec Antivirus 8.1以上有冲突(安装后会蓝屏),故很多微软补丁没有不办法安装,几年来一直没有出问题。上周NAS自动出现重启,并有个别重启带到计时间,影响数据备份和用户使用。怀疑有病毒,经过仔细检查,未发现病毒,但总感觉心里不踏实。打算在周末再此安装SP4和Symantec 10.1..1.5000,以解决安全隐患。花了2天时间做了计划和灾难恢复计划,考虑了租用供应商的备用NAS。
 
问题的出现
由于连续测试以及多次关机重启,后来出现了RAID 1 中只有一个盘能检测到,无论怎么插拔都不行。可能是RAID卡出问题了,为防止系统重启后无法启动,这时候考虑启用备机,再查找具体出问题原因。由于是周末,联系了几家供应商都无法满足我们的要求,不是NAS空间太小,就是价格太高。若自己拿公司IBM 346(3×300G, RAID 5) 服务器做临时NAS,若要1恢复1TB数据,硬盘数量不够,需要购买SCSI,且价格较高。最后经过努力,找了一家能基本满足我们要求的供应商,但硬盘数量不够,幸运的是他们的设备是用SATA硬盘。因为SATA硬盘便宜,经过商量,让他们提供硬盘,我们花4000元租用他们设备10天,超过10天按每天200元,安装调试由他们负责。
 
启用RAIDSYS 9200 IS作为备机
(1)晚上6点多,设备送到。开始安装,来之前先把IP地址,网线等准备好。
采用1000MB网络,连接至CISCO 3750中心交换机,先RAIDSYS这边先不接网线。
(2)配置静态IP
找一笔记本,利用CONSOLE,TELENT, WEB接口登陆RAIDSYS(第一次用console,com1,38400,8,1,none)。
配置静态IP,无论是笔记本操作系统是中文版本换是英文版本,配置界面有部分出现乱码。
(3)配置RAID 5
采用5个300GSATA做RAID 5, 然后重启RAIDSYS
(4)从微软网站下载和安装配置MS ISCSI initiator (需开放3260端口 ), 比较简单。
(5)找到设备后,进行分区,格式化
(6)将磁带机上的部分数据回复至RAIDSYS,检查数据无误,设置共享。用户这边能正常访问。由于已经是晚上了,大家累了一天,而且备用系统基本没有问题,决定明天再搞。设置好其他数据的恢复任务,就回家。
 
重启后文件共享信息丢失
第二天,等一切数据恢复和检查完毕后。我们想重启整个系统,包括IBM 346和RAIDSYS,看看是否会有问题。先关服务器,再关闭RAIDSYS,再重启RAIDSYS,然后重启服务器。发现共享信息全部丢失。
 
问题的解决
询问供应商,他们以前没有碰到过此类问题。经分析可能的原因
(1)windows 2003 的安全设置,本地的共享重启后没有丢失,因此可以排除。
(2)RAIDSYS没有把信息写入。把测试文件拷贝至RAIDSYS,重启后文件没有丢失,说明RAIDSYS 的controller正常工作。因此也可以排除是这个原因。
(3) iSCSI Software Initiator v2.0造成的。后来供应商打电话,并提供了如何解决此问题的链接。
KB=870964 点击下载
解决如下:
共有3个步骤:

1. Make the Server service dependant on the iSCSI Initiator service.
sc config LanManServer depend= MSiSCSI (注意=后面有空格)
2. Configure the BindPersistentVolumes option for the iSCSI Initiator service. 
iscsicli BindPersistentVolumes
3. Configure persistent logons to the target. To do this, use one of the following methods.
a.  Double-click iSCSI Initiator in Control Panel.
b.  Click the Available Targets tab.
c.  Click a target in the Select a target list, and then click Log On.
d.  Click to select the Automatically restore this connection when the system boots check box.
e.  Click OK.
 
重启后故障排除。
 
经验
(1)在服务器上做任何操作都需要仔细规划,并在操作过程中记录详细经过,以便在出问题时候,进行排错或恢复。由于时间紧张,有些操作步骤没有及时记录,导致后来花了很多时间去回忆和整理。日志也是日后审计的一个重要环节。
(2)不要存在侥幸心理,考虑问题要全面,我们在做规划时,其他几个同事只考虑了软件出现故障,认为只要有RAID 1就不会有问题了,忽略了硬件带来的问题。我要求他们联系一下备用机,尽管由于时间紧张,没有跟供应商签订正式合同,但跟他们打了招呼,后面果然用到了。
(3)做好备份工作,做到有备无患。
(4)准备好足够的资源,以免到时手忙脚乱。
 
 
 
相关链接
 
SC用法
SAN 存储管理器
部署 iSCSI SAN