MegaCli工具监控RAID阵列健康信息,查看硬盘健康情况等

标签: MegaCli阵列卡RAID查看
9人阅读 评论(0) 收藏 举报
分类:

Megacli是一款管理维护硬件RAID的工具,有LSI公司提供,LSI公司的raid卡,使用的比较广泛。我们可以通过megacli了解当前raid卡的所有信息,包括raid卡的型号,raid的阵列类型,raid上的磁盘状态,也可以通过它来直接创建阵列,在线添加磁盘等。

一,Megacli工具安装

可以在LSI公司的官网直接下载工具:

http://www.lsi.com/downloads/Public/Nytro/downloads/Nytro%20XD/MegaCli_Linux.zip

 下载完成之后,是一个zip包,然后解压,安装:

# unzip MegaCli_Linux.zip

# cd MegaCli_Linux

# ls
megacli_8.07.08-1_all.deb  MegaCli-8.07.08-1.noarch.rpm  MegaSAS.log

# rpm -ivh MegaCli-8.07.08-1.noarch.rpm

安装成功之后,命令的默认安装路径为:

# /opt/MegaRAID/MegaCli/MegaCli64

二,查看磁盘的状态

作用:显示Raid卡型号,Raid设置,整列类型,Disk相关信息

# /opt/MegaRAID/MegaCli/MegaCli64 -cfgdsply -aALL|less

1,查看raid整列类型和大小

wKioL1POQKnA2giGAAG8e41-998140.jpg

如上图所示:

(1)通过RAID Level字段得知,disk group 0做的是一个raid5;

(2)disk group 0的大小为1.6TB;

2,查看raid的cache策略

wKioL1POQLvCUGw6AAJSbzEs7lc391.jpg

如上图所示,raid的默认以及当前生效的cache策略为writeback(还有一种cache策略为WriteThrough)


策略说明:

(1). 第一段: WriteBack, WriteThrough

* WriteBack:进行写操作时,将数据写入RAID卡缓存,并直接返回,RAID卡控制器将在系统负载低或者Cache满了的情况下把数据写入硬盘。该设置会大大提升RAID卡写性能,绝大多数的情况下会降低系统IO负载。 数据的可靠性由RAID卡的BBU(Battery Backup Unit)进行保证。大多数情况下,我们都使用这种策略。

* WriteThrough: 数据写操作不使用缓存,数据直接写入磁盘。RAID卡写性能明显下降,在大多数情况下该设置会造成系统IO负载上升。特别对于io负载很大的服务,表现特别明显。

(2). 第二段: ReadAheadNone, ReadAdaptive, ReadAhead.

* ReadAheadNone: 不开启预读。这是默认的设置

* ReadAhead: 在读操作时,预先把后面顺序的数据加载入Cache,在顺序读取时,能提高性能,相反会降低随机读的性能。

* ReadAdaptive: 自适应预读,当Cache memory和IO空闲时,采取顺序预读,平衡了连续读性能及随机读的性能,需要消耗一定的计算能力。

(3). 第三段: Direct, Cached.

* Direct: Direct IO模式,读操作不缓存到cache memory中,数据将同时传输到cache中和应用,如果接下来要读取相同的数据块,则直接从Cache memory中获取. 这是默认的设置

* Cached: Cached IO模式,所有读操作都会缓存到cache memory中。

(4). 第四段: Write Cache OK if Bad BBU, No Write Cache if Bad BBU

* Write Cache OK if Bad BBU: 在BBU有问题时(如电池失效), 依旧使用Write Cache, 有一定的数据丢失风险.

* No Write Cache if Bad BBU: 在BBU有问题时, 不使用Write Cache

策略自动切换的问题由于MegaSAS RAID卡默认采用No Write Cache if Bad BBU的设置,将可能发生Write Cache策略变更的情况(由WriteBack变成WriteThrough),导致写性能下降,如果该自动变更发生在业务高峰且系统Io负载高的时候,可能会引发不可预测的问题,如卡机。以下原因将造成Write Cache策略的变更.

(1). RAID卡进入BBU Learn Cycle: 详细介绍见下面

(2). 检测到某些电池故障,如电池容量过低等,一般是电池老化带来的影响,IBM建议一年更换一次RAID卡电池

(3). 没有安装电池, 部分服务器购买时不带电池,导致被自动设置为WriteThrough

3,判定磁盘是否损坏

wKioL1POQM2ySMGxAANV_4sR2wo177.jpg

如上图所示,我们一般通过如上5个值,来判断磁盘是否应该报修:

1,Media Error

磁盘存在错误,可能是磁盘有坏道。值越大,越危险。根据磁盘状况,一般大于100报修更换。

2,Other Error

磁盘存在未知的错误,可能是磁盘松动,需要重新再插入。根据磁盘状况,一般大于100报修更换。

3,Predictive Failure Count

磁盘的预警数。一般大于0,就报修更换。

4,Last Predictive Failure Event Seq Number

最后一条预警的时间序列号。这个值不为0,肯定Predictive Failure Count也不为0

5,Firmware state

磁盘目前的状态。一般有9种,即

(1)Unconfigured Good – A drive accessible to the RAID controller but not configured as a part of

a virtual drive or as a hot spare.

(2)Online – A drive that can be accessed by the RAID controller and will be part of the virtual

drive.

(3)Rebuild – A drive to which data is being written to restore full redundancy for a virtual drive.

(4)Failed – A drive that was originally configured as Online or Hot Spare, but on which the

firmware detects an unrecoverable error.

(5)Unconfigured Bad – A drive on which the firmware detects an unrecoverable error; the drive

was Unconfigured Good or the drive could not be initialized.

(6)Missing – A drive that was Online, but which has been removed from its location.

(7)Offline – A drive that is part of a virtual drive but which has invalid data as far as the RAID

configuration is concerned.

(8)Hot Spare – A drive that is configured as a hot spare.

(9)None – A drive with an unsupported flag set. An Unconfigured Good or Offline drive that has

completed the prepare for removal operation.

(10)还有一种特殊的状态copyback:

从磁盘组中把数据复制到非磁盘组的磁盘中,然后等failed的盘更换之后,再从这个非磁盘组的磁盘中把数据给copyback回来。

做hot spare的盘,会出现这种情况:即原来的hot spare盘只是临时存放了数据,等failed的盘更换之后,把数据从hotspare的盘中复制回来,正常使用的还是新更换的盘,hot spare的盘永久做hot spare。


==============================================================================================


查看机器型号    # dmidecode | grep "Product" 
查看厂商    # dmidecode| grep  "Manufacturer" 
查看序列号    # dmidecode | grep  "Serial Number" 
查看CPU信息    # dmidecode | grep  "CPU" 
查看CPU个数    # dmidecode | grep  "Socket Designation: CPU" |wc –l 
查看出厂日期    # dmidecode | grep "Date" 
查看充电状态    # MegaCli -AdpBbuCmd -GetBbuStatus -aALL |grep "Charger Status" 
显示BBU状态信息    # MegaCli -AdpBbuCmd -GetBbuStatus –aALL 
显示BBU容量信息    # MegaCli -AdpBbuCmd -GetBbuCapacityInfo –aALL 
显示BBU设计参数    # MegaCli -AdpBbuCmd -GetBbuDesignInfo –aALL 
显示当前BBU属性    # MegaCli -AdpBbuCmd -GetBbuProperties –aALL 
查看充电进度百分比    # MegaCli -AdpBbuCmd -GetBbuStatus -aALL |grep "Relative State of Charge" 
查询Raid阵列数    # MegaCli -cfgdsply -aALL |grep "Number of DISK GROUPS:" 
显示Raid卡型号,Raid设置,Disk相关信息      # MegaCli -cfgdsply –aALL 
显示所有物理信息    # MegaCli -PDList -aALL 
显示所有逻辑磁盘组信息    # MegaCli -LDInfo -LALL –aAll 
查看物理磁盘重建进度(重要)    # MegaCli -PDRbld -ShowProg -PhysDrv [1:5] -a0 
查看适配器个数    #MegaCli –adpCount 
查看适配器时间    #MegaCli -AdpGetTime –aALL 
显示所有适配器信息    #MegaCli -AdpAllInfo –aAll 
查看Cache 策略设置    # MegaCli -cfgdsply -aALL |grep Polic

硬盘方面:

1、查看所有物理磁盘信息 
MegaCli -PDList -aALL

Adapter #0

Enclosure Number: 1 
Slot Number: 5 
Device Id: 5 
Sequence Number: 2 
Media Error Count: 0 
Other Error Count: 0 
Predictive Failure Count: 0 
Last Predictive Failure Event Seq Number: 0 
Raw Size: 140014MB [0x11177328 Sectors] 
Non Coerced Size: 139502MB [0x11077328 Sectors] 
Coerced Size: 139392MB [0x11040000 Sectors] 
Firmware state: Hotspare 
SAS Address(0): 0x5000c50008e5cca9 
SAS Address(1): 0x0 
Inquiry Data: SEAGATE ST3146855SS     S5273LN4Y1X0 
..... 
2、查看磁盘缓存策略 
MegaCli -LDGetProp -Cache -L0 -a0

Adapter 0-VD 0: Cache Policy:WriteBack, ReadAheadNone, Direct 
or 
MegaCli -LDGetProp -Cache -L1 -a0

Adapter 0-VD 1: Cache Policy:WriteBack, ReadAheadNone, Direct 
or 
MegaCli -LDGetProp -Cache -LALL -a0

Adapter 0-VD 0: Cache Policy:WriteBack, ReadAheadNone, Direct 
Adapter 0-VD 1: Cache Policy:WriteBack, ReadAheadNone, Direct 
or 
MegaCli -LDGetProp -Cache -LALL -aALL

Adapter 0-VD 0: Cache Policy:WriteBack, ReadAheadNone, Direct 
Adapter 0-VD 1: Cache Policy:WriteBack, ReadAheadNone, Direct 
or 
MegaCli -LDGetProp -DskCache -LALL -aALL

Adapter 0-VD 0: Disk Write Cache : Disk's Default 
Adapter 0-VD 1: Disk Write Cache : Disk's Default 
3、设置磁盘缓存策略 
缓存策略解释: 
WT    (Write through 
WB    (Write back) 
NORA  (No read ahead) 
RA    (Read ahead) 
ADRA  (Adaptive read ahead) 
Cached 
Direct 
例子: 
MegaCli -LDSetProp WT|WB|NORA|RA|ADRA -L0 -a0 
or 
MegaCli -LDSetProp -Cached|-Direct -L0 -a0 
or 
enable / disable disk cache 
MegaCli -LDSetProp -EnDskCache|-DisDskCache -L0 -a0 
4、创建/删除 阵列 
    4.1 创建一个 raid5 阵列,由物理盘 2,3,4 构成,该阵列的热备盘是物理盘 5 
MegaCli -CfgLdAdd -r5 [1:2,1:3,1:4] WB Direct -Hsp[1:5] –a0 
    4.2 创建阵列,不指定热备 
MegaCli -CfgLdAdd -r5 [1:2,1:3,1:4] WB Direct –a0 
    4.3 删除阵列 
MegaCli -CfgLdDel -L1 –a0 
    4.4 在线添加磁盘 
MegaCli -LDRecon -Start -r5 -Add -PhysDrv[1:4] -L1 -a0 
意思是,重建逻辑磁盘组1,raid级别是5,添加物理磁盘号:1:4。重建完后,新添加的物理磁盘会自动处于重建(同步)状态,这个 时候 fdisk -l是看不到阵列的空间变大的,只有在系统重启后才能看见。 
5、查看阵列初始化信息 
    5.1 阵列创建完后,会有一个初始化同步块的过程,可以看看其进度。 
MegaCli -LDInit -ShowProg -LALL -aALL 
或者以动态可视化文字界面显示 
MegaCli -LDInit -ProgDsply -LALL –aALL 
    5.2 查看阵列后台初始化进度 
MegaCli -LDBI -ShowProg -LALL -aALL 
或者以动态可视化文字界面显示 
MegaCli -LDBI -ProgDsply -LALL -aALL 
6、创建全局热备 
指定第 5 块盘作为全局热备 
MegaCli -PDHSP -Set [-EnclAffinity] [-nonRevertible] -PhysDrv[1:5] -a0 
也可以指定为某个阵列的专用热备 
MegaCli -PDHSP -Set [-Dedicated [-Array1]] [-EnclAffinity] [-nonRevertible] -PhysDrv[1:5] -a0 
7、删除全局热备 
MegaCli -PDHSP -Rmv -PhysDrv[1:5] -a0 
8、将某块物理盘下线/上线 
MegaCli -PDOffline -PhysDrv [1:4] -a0 
MegaCli -PDOnline -PhysDrv [1:4] -a0 
9、查看物理磁盘重建进度 
MegaCli -PDRbld -ShowProg -PhysDrv [1:5] -a0


查看评论

Python监控RAID健康状况

环境:Ubuntu 64 工具:MegaCli Python 2.7一、MegaCli在Ubuntu下的安装  可以在这里下载到你需要的MegaCli的zip包。   解压之后得到一个rpm的安...
  • ah_luozhi
  • ah_luozhi
  • 2017年03月10日 14:50
  • 640

Centos(Linux)操作系统下使用MegaCli等工具查看Raid磁盘阵列状态

以下是组建服务器raid时查到的资料,做下笔记,没兴趣的朋友请无视。 最新下载地址: http://www.lsi.com/Search/?terms=MegaCLI&x=12&y=11 ...
  • fujs999
  • fujs999
  • 2012年03月25日 02:07
  • 8725

RAID管理工具 -- MegaCli常用命令

#查raid卡信息(生产商、电池信息及所支持的raid级别) /opt/MegaRAID/MegaCli/MegaCli64 -AdpAllInfo -aALL |grep -E "Product N...
  • u011478909
  • u011478909
  • 2016年11月25日 10:54
  • 1786

ESXI上安装MegaCli磁盘检测工具

ESXI上安装MegaCli wget  http://www.lsi.com/downloads/Public/RAID%20Controllers/RAID%20Controllers%20Com...
  • VmBoys
  • VmBoys
  • 2016年05月26日 10:13
  • 2538

dell服务器,远程检查raid1 硬盘健康情况,及其他硬件信息

PowerEdge Diagnostics 使用指南――WINDOWS版 newhttp://support1.ap.dell.com/cn/zh/forum/Thread.asp?fid=20&ti...
  • qiudakun
  • qiudakun
  • 2010年12月03日 11:29
  • 2646

各种服务器raid监控

对于 HP ProLiant DL360 G4p 服务器 (ns6.dns-diy)。 RAID控制器是 Smart Array 6i 。 从网站上下载了基于web的HP管理平台。 参考设...
  • fujs999
  • fujs999
  • 2012年03月25日 21:11
  • 4609

查看RAID硬盘信息MegaCli安装

http://www.lsi.com/support/Pages/Download-Results.aspx?keyword=MegaCli 选择相应版本的安装包 下载之后解压, unzip C...
  • beyondlpf
  • beyondlpf
  • 2013年08月19日 17:42
  • 7881

在CentOS 6.3 64bit上使用 smartmontools和MageCli 监测硬盘的健康状态

一、简介 smartmontools是一款开源的磁盘控制,监视工具,通过控制和管理硬盘的SMART(Self Monitoring Analysis and Reporting Technology...
  • tao_627
  • tao_627
  • 2015年10月28日 18:57
  • 1928

Megacli创建磁盘raid过程

1、[root@XXX megactl-0.4.1]# ./megasasctla0       PERC H710 Mini           encl:1 ldrv:1  batt:gooda0...
  • l106439814
  • l106439814
  • 2015年11月05日 12:12
  • 3718

Linux 查看 磁盘及RAID 信息

服务器的RAID 信息,在启动OS 时,可以查看,刚想通过命令查看一下RAID的信息,小google 了一下,内容如下: 软件raid:只能通过Linux系统本身来查看 cat /proc/mdsta...
  • tianlesoftware
  • tianlesoftware
  • 2011年11月14日 15:33
  • 34067
    个人资料
    持之以恒
    等级:
    访问量: 2025
    积分: 179
    排名: 107万+
    文章存档
    最新评论