aix关闭故障灯_实用的AIX故障排除

你们中的许多人可能还记得IBM在1980年代星期一足球之夜播出的广告,叫做“ You Make the Call”。 这些景点将显示出一场有趣的比赛。 叙述者将解释玩家的行为,突出事件的可疑性质,然后向观看观众询问他们将要做出的决定,并说:“您打了电话”。 在简短介绍IBM产品或服务的广告后,叙述者将返回并总结裁判的决定以及他使用的指南。 这是了解美式足球并在餐桌旁进行一些对话的好方法。

就像该广告一样,在本文中,您将有机会在对IBMAIX®中的实际问题进行故障诊断的领域中打电话。 您将获得用于分类,测试和调整技能的工具和知识,以解决您可能会遇到的一些特别令人头疼的问题。 本文提供了一些我遇到的真实有趣的情况,为您提供了检测异常的步骤,并暂停了一下,让您有时间在给出答案之前推断出问题所在。

样本问题

让我们为我作为系统管理员遇到的几个问题打基础。

问题1:服务器更大,功耗更低

我需要将AIX 5.3 LPAR从POWER4™上的旧IBMpSeries®p670服务器迁移到POWER6®上的全新pSeries p570服务器。 较旧的服务器资源短缺,使用Workload Manager来管理服务器上主要应用程序的资源,因此新硬件上可用的新动态处理器资源可以完美发挥所需的功能。 我mksysb了LPAR的mksysb ,使用网络安装管理器将其恢复到新硬件,并映射到SAN磁盘上。

我启动了LPAR,并且一切正常,直到启动了应用程序。 用户立即开始打电话。他们根本无法访问他们的产品。 登录后,我发现服务器完全空闲。 没有任何过程完全使服务器负担。 用户为什么会有问题?

问题2:永不放弃幽灵的垂死硬盘

我有一台带有镜像根磁盘的服务器。 一天,错误报告开始记录有关无法将自身重新定位到其中一个磁盘的坏块的问题。 知道这是即将发生的硬件故障的征兆后,我开始打破镜子。 但是服务器表示无法完全打破镜像,因为其中一个逻辑卷的唯一好的副本在即将死掉的磁盘上。 我该如何克服这个问题并更换硬件?

故障排除过程

考虑到这两个示例问题,让我们深入研究一下对它们进行故障排除的过程。

步骤1:冻结

在出现麻烦的第一个迹象时,最明智的做法是冻结。 就像《夺宝奇兵》中的印第安纳·琼斯一样,如果您知道地板可能会导致Dart朝您的方向射击,请停在您所在的位置,并且不要继续在地面上狂奔。 其他更改可能只会使问题更加复杂,并可能使情况恶化。 当一个好人可以直接影响正常运行时间时,就不必解决多个问题。

对于第一个示例问题 ,我让用户立即注销,然后暂停了应用程序。 知道当性能低下导致他们的查询和输入停止时,用户的数据可能会受到损害,因此我不希望他们的环境在不首先查看情况的情况下进行任何进一步的更改。 尽管用户不高兴听到他们当时无法使用新的功能更强大的服务器,但他们还是对我正在采取一切适当的谨慎态度表示感谢。 另外,这使我有时间开始按照其余的故障排除步骤进行工作。

步骤2:从基本命令开始,然后增加复杂性

当我学习功夫时,我听到了一个二级黑带的故事,那个黑带使一个试图在公共汽车站偷钱包的人失去了能力。 班级很好奇她曾经使用过什么技术来击落攻击者。 是金老虎风格吗? 她是否使用了pa kua的圆周运动? 也许,我们想知道,她真的很异国情调,并用八位醉酒的神仙把他放倒了。 事实证明,这些都不是:她用白带在课堂上学到的最早的技巧之一-肘部稳固于胸部,然后猛击鼻子。

AIX提供了许多命令来检查服务器最细微的方面(包括硬件和软件)。 即使是最基本的命令也为分析问题提供了良好的基础。 而且,当没有足够的信息或者事情仍然无法正常运行时,您可以将自己的方法变成更复杂,更强大的选项。 但是,从大手笔开始,先从最简单的命令和想法开始。

例如,AIX errpt是任何UNIX®版本中最伟大的基本工具之一。 这是一站式商店,可获取有关硬件和软件问题的各种信息。 通过将–a标志或–j选项与标识符代码一起使用,更详细的输出将描述问题的类型,受影响的组件以及系统如何根据错误的类型对其做出React。 而且,如果这样不能提供足够的信息,那么您可以使用diag命令进一步询问系统,在各种硬件和操作系统上运行特定的测试。

第二个示例问题的情况下,在通过查看errpt检测到硬件问题errpt ,我使用了unmirrorvg命令(一种简单而强大的实用程序来尝试打破镜像),而不是对每个逻辑卷运行rmlvcopy 。磁盘。 当我发现无法删除一个剩余的逻辑卷时,我去了lspvlsvgmigratepv等其他基本命令来获取信息。 我尝试了extendvgmirrorvg在另一个磁盘上创建卷组的另一个副本。 那仍然留下了一些过时的分区,因此我更深入地研究了syncvgsynclvdom以使对象数据管理器与服务器协调一致。 最终,我去了migratelp尝试将单个逻辑分区移出磁盘。 不幸的是,这些工具都不起作用,但是它们确实给了我很多信息。

步骤3:复制问题

在科学方法中,任何假设和检验的关键点是具有相同结果的重新创建和再现过程的能力。 否则,充其量只能得出不确定的结果。 在最坏的情况下,它会毁掉想法并损害声誉,例如声称在1990年代进行室温冷聚变的物理学家。

或者,据我开玩笑:如果一开始您没有成功,请查看是否可以将其破坏。

在AIX服务器上工作时,如果途中出现问题,并且您有足够的资源来重复该问题,请尝试查看相同的操作在另一种类似类型的LPAR上是否产生相同的结果。 如果在另一台服务器上更改相同的属性导致相同的效果,则可以合理地推断出操作是问题的根源。 但是,如果产生完全相反的效果,请检查服务器之间的细微差别,并尝试推断出可能导致此问题的原因。

对于第一个示例问题中的LPAR,我看到将SAN磁盘摆回旧的p670服务器并启动它时,问题不存在。 用户能够访问其应用程序,并且CPU承受了可观的负载,CPU利用率超过80%(内核10%+用户70%)。 因此,我能够确定在p570机器上运行是导致问题的唯一原因,而不是迁移过程中引入的问题。

步骤4:研究问题

在信息时代,只需几次击键和单击鼠标即可获得大量知识。 对于系统管理员来说,幸运的是,我们倾向于成为一个更大社区的一部分,该社区已经记录了数百年的经验和在线语法库。

制造商和销售商本身就是一个很好的起点。 像IBM这样的公司已经将其所有手册,红皮书,技术论文,甚至其man页都放在了网络上,以进行研究。 只需在主站点的搜索栏中输入一个简单的关键字,就可以提供成千上万的建议,以帮助您获得有用的信息。

我推荐的其他地方是其他系统管理员经常访问的各种新闻组,论坛和站点。 一整天在服务器上工作的人往往会跟上阅读技术站点并评论他们在工作过程中看到的内容。 大多数系统管理员很乐意提供一些指示或来回发送一些电子邮件,以回应公众的求助。 而且,您经常可以找到几十年前的信息,这些信息与其他版本的操作系统和软件有关,这些信息可以用作获取更多信息的跳台。

在任何这些情况下使用的主要技巧是正确的关键字集。 如果我使用Google之类的常规网站来开始AIX问题,请确保使用AIX显式启动搜索字符串,以避免使用其他任何UNIX风格。 然后,我可能会包含类似命令的输出或errpt的标签之errpt 。 我还确保在特定短语周围使用双引号( "" ),以将搜索限制在这些特定问题上,并且不会带来多余的信息,尤其是对于诸如Logical Volume Manager之类的常见单词。

对于无法解决坏块重定位问题的磁盘问题,使用短语AIX“坏块重定位”失败使我在Google上获得了数百个结果,但似乎没有人遇到过与之完全相同的情况。我的腿

步骤5:撤消所有更改

有时候,解决问题最明智的做法是撤消已放置的所有内容,然后返回到原来的状态。 此步骤并非在所有情况下都始终可用。 有时,过度热情的C级高管迫使您需要备份服务器。 或者,可能需要时间紧缩。 但是,回滚选项是保持臀部状态的最佳策略之一。

我将此选项包括在故障排除步骤列表的中点,因为有时必须更早地完成此工作,有时又需要稍后进行分类。 但是根据我的经验,我发现在考虑撤消任何更改之前最明智的做法是执行前四个步骤,因为如果在此过程中立即将更改回滚,则可能无法解决问题,您将下次您尝试相同的工作时,只需为自己感到同样的头痛。 如果更改在流程中回滚太晚,则可能会影响正常运行时间,或使问题复杂到无法撤消的地步。

实际上,由于时间的原因,我确实不得不从第一个示例回滚服务器迁移。 如果此生产服务器不再停机,则用户和公司将蒙受损失。 重新安排工作的一周使我有能力进行更多研究,但是当我再次尝试迁移时,野兽抬起了丑陋的头。 在第二个示例中,没有从硬件问题回滚。 无法告诉服务器“带回该坏块重定位错误!” 我不得不继续尝试克服磁盘的沉默。

步骤6:单三角规则

如果以上所有步骤都没有起作用,而您决定是时候开始更改主要组件或使服务器更具侵入性了,那么首先要记住一个重要规则:一次更改一件。

多次更改将执行以下两项操作之一。 首先,如果问题一直得到解决,您将不知道哪个更改是有效的措施。 如果您不在乎是什么解决了问题,那么这可能没什么大不了的,但是好的系统管理员喜欢扩展他们的知识库,因为他们知道问题往往会在同一地方发生两次或更多次。 其次,如果无法解决问题,则可能会带来更多的复杂性。 然后,您将不知道要退出哪一个。 走得足够远,接下来您就会知道,当系统陷入混乱时,您会感到困惑。 (有关此问题的有趣笑话,请参阅xkcd 。)

如果一个增量后问题仍未解决,则通常需要放回去尝试其他方法。 在第一个示例中就是这种情况:当我比较两台服务器的硬件管理控制台配置文件时,我看到了它们之间的区别。 我注意到较旧的POWER4硬件使用了专用CPU,而较新的POWER6硬件具有无上限的共享CPU池。 好奇这种差异如何影响CPU性能,因此我将POWER6机器上的配置文件更改为使用专用CPU。 奇怪的是,服务器随后根据用户执行了“正确”的操作,我看到了处理器上的负载。 因此,我知道问题必须与CPU资源有关,但需要找出原因。

步骤7:参与IBM支持

当您用尽所有合理的步骤并需要提出第二意见时,通常是时候联系IBM支持。 他们拥有先进的故障排除工具,各种专家覆盖了操作系统和相关产品(例如VIO和PowerHA)的各个方面,并且可以提供相关的案例编号来证实和解决类似的问题。 但是,如果您从未致电800-IBM-SERV,那么您将需要了解这些内容。

首先,您应该拥有与IBM的合同编号。 有各种级别的支持,从最高级别的全天候24x7x365覆盖(有专职人员)到对非关键服务器的8:00 am至5:00 pm的临时支持。 这些支持包可以直接从IBM购买,也可以联系增值经销商。

您还需要提供一些信息,以便IBM支持人员可以开设您的帐户-通常是机器所在的电话号码,序列号,合同号或实际位置。 此信息在很大程度上取决于您要打开硬件盒还是软件盒。

您还必须让支持人员知道案件的严重性或优先级。 优先级从1(通常与系统停机或生产影响相关,从而导致实时呼叫转移到技术人员)到4(这意味着更长的周转时间,通常用于更一般的管理问题)不同。

在提供问题描述并打开案例后,您将获得一个跟踪号,通常称为PMR 。 此号码可向您与之合作的任何其他支持人员识别情况。 硬件和软件PMR是唯一的,如果您的问题越界,您将需要获得一个新的号码。

对于我的两个样本问题,我都必须联系IBM。 对于第一个问题,从VIO支持到内核团队,IBM参与了每个人的尝试,以寻求解决方案。 对于第二个问题,我留在他们家的硬件方面,提供来自snap命令的信息以进行分析。

步骤8:走极端

有时候,别无选择,只能解决一个问题,而要尝试一些不合常规和古怪的事情,大多数人会称之为疯狂。 这通常是在绝望的时刻发生的,在那儿工作或生活甚至可能会在线上。 通常甚至是IBM都会说:“如果这样做,您将处于不受支持的状态,必须重新开始才能获得支持。” 但是要权衡的是,如果您的解决方案有效,那么您也许可以节省一天。

对于第二个示例,在致电给IBM支持人员之后,他们说我唯一的选择是转到mksysb映像以还原服务器。 在与我的管理员团队交谈之后,我们没有其他损失,我们制定了一个计划,在对根磁盘进行三重镜像之后,尝试从服务器上物理地拉出磁盘。 已知的风险是,卸下磁盘可能导致服务器无法启动。 但是潜在的风险是,物理移除可能会惊吓更大的服务器,并使所有LPAR崩溃。 我们决定敢吗?

你打电话

现在,我已经提供了这些票证的背景,现在该您打电话了。 总结一下:

  • 如果将LPAR配置文件设置为专用CPU而不是动态CPU,为什么将支持Workload Manager的服务器迁移到更快的硬件只能正常工作?
  • 我该如何从无法取消配置的磁盘中恢复服务器,或者将故障物理分区中的数据移出该服务器?

当您认为自己有想法时,请继续前进。

到底发生了什么

第一个示例的罪魁祸首是工作负载管理器。 使用它的应用程序已被调低以使用50%的CPU。 因此,当系统管理程序轮询周期探测LPAR时,它询问:“您需要多少CPU?” 服务器回答:“我只使用分配的一半。” 因此,系统管理程序将动态地将CPU授权减少一半。 将此循环重复几次后,CPU的功率将有效地减半为零。 为了解决该问题,已将Workload Manager池调整为使用最多100%的CPU,然后动态的CPU授权将适当地限制自身。

对于第二个示例,最终,我们不得不进行备份和还原。 无法避免业务愿意采取的失败的区块重定位。 根据IBM支持,这是一个很少遇到的问题,但是除了将mksysb放置在一个好的磁盘上并以这种方式恢复存储箱之外,别无选择。 恢复操作系统后,我可以安全的方式热插入坏磁盘,并在不损害硬件上其他LPAR的情况下将其更换。

结论

希望您对系统管理员如何对AIX服务器进行故障排除,可以使用的策略,应避免的一些注意事项以及在哪里可以找到有关解决问题的建议的方法获得一些实用的见解。 这些步骤并不能完美地涵盖所有情况,您可以选择其他方式,但是这些步骤可以为您指明正确的道路。


翻译自: https://www.ibm.com/developerworks/aix/library/au-practicalaix/index.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值