Oracle Exadata X7-2掉电宕机导致集群无法启动处理过程


前言

客户突然联系说应用无法连接数据库,报错如下:

[ERROR]-[Thread: Druid-ConnectionPool-Create-26728049]-[com.alibaba.druid.pool.DruidDataSource$CreateConnectionThread.run()]: create connection error, url: jdbc:oracle:thin:@x.x.x.93:1521:empdb011, errorCode 17002, state 08006
java.sql.SQLRecoverableException: IO 错误: The Network Adapter could not establish the connection
	at oracle.jdbc.driver.T4CConnection.logon(T4CConnection.java:774)
	at oracle.jdbc.driver.PhysicalConnection.connect(PhysicalConnection.java:688)
	at oracle.jdbc.driver.T4CDriverExtension.getConnection(T4CDriverExtension.java:39)
	at oracle.jdbc.driver.OracleDriver.connect(OracleDriver.java:691)
	at com.alibaba.druid.filter.FilterChainImpl.connection_connect(FilterChainImpl.java:148)
	at com.alibaba.druid.filter.stat.StatFilter.connection_connect(StatFilter.java:220)
	at com.alibaba.druid.filter.FilterChainImpl.connection_connect(FilterChainImpl.java:142)
	at com.alibaba.druid.filter.FilterAdapter.connection_connect(FilterAdapter.java:785)
	at com.alibaba.druid.filter.FilterChainImpl.connection_connect(FilterChainImpl.java:142)
	at com.alibaba.druid.pool.DruidAbstractDataSource.createPhysicalConnection(DruidAbstractDataSource.java:1463)
	at com.alibaba.druid.pool.DruidAbstractDataSource.createPhysicalConnection(DruidAbstractDataSource.java:1525)
	at com.alibaba.druid.pool.DruidDataSource$CreateConnectionThread.run(DruidDataSource.java:2100)
Caused by: oracle.net.ns.NetException: The Network Adapter could not establish the connection
	at oracle.net.nt.ConnStrategy.execute(ConnStrategy.java:523)
	at oracle.net.resolver.AddrResolution.resolveAndExecute(AddrResolution.java:521)
	at oracle.net.ns.NSProtocol.establishConnection(NSProtocol.java:660)
	at oracle.net.ns.NSProtocol.connect(NSProtocol.java:286)
	at oracle.jdbc.driver.T4CConnection.connect(T4CConnection.java:1438)
	at oracle.jdbc.driver.T4CConnection.logon(T4CConnection.java:518)
	... 11 more
Caused by: java.io.IOException: Connection timed out: connect, socket connect lapse 20998 ms. /x.x.x.93 1521 0 1 true
	at ora

一、当前的状态是什么?

集群状态宕掉了,且无法正常启动!!!
在这里插入图片描述
在这里插入图片描述

二、集群启动异常怀疑对象

1.排查心跳网络异常

ping自己私有IP延迟高

在这里插入图片描述

ping其它主机私有IP不通

在这里插入图片描述
那么问题定位到私有IP不通导致的集群无法启动,一体机内部私有IP交互是通过自身的IB交换机完成的,很有可能是IB交换机问题,下面进行日志查询取证。

2.是否发生过重启

每台机器都发生过重启,明显掉电情况
在这里插入图片描述

三、日志信息收集

ocssd.trc

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

集群crs日志

在这里插入图片描述

cell的griddisk状态及报错

在这里插入图片描述
尝试启动:
在这里插入图片描述
那么排查到这里可以断定,是由于上层问题导致的griddisk不正常无法拉起集群,此处上层的IB交换机就成为重要排查对象。

四、IB交换机的问题排查处理

通过融合IP登入ilom管理网页失败,只能通过ssh
在这里插入图片描述
在这里插入图片描述
登入后看到明显的提示,尝试boot重启失败:
在这里插入图片描述
在这里插入图片描述
还发现掉了一个PDU,进行确认私有IP通信正常

五、紧急恢复业务

在IB完成正常重启后,重新启动所有cell服务

在这里插入图片描述
在这里插入图片描述

拉起集群:

在这里插入图片描述

六、收尾工作

check修复第二台IB交换机

重新挂载nfs共享目录

在这里插入图片描述

检查PDU,确实已掉电

在这里插入图片描述
在这里插入图片描述

七、原因调查

PDU问题由于29日晚操作切电操作导致UPS路跳闸

主机等log显示电源切换

在这里插入图片描述

29日有检测到FAN0风扇数值是0

在这里插入图片描述
但实际风扇只应该显示FAN1~3才对,出现FAN0也是奇怪,有知道朋友可以留言。


总结

通过整体问题梳理,应该是在用过进行切电作业时候导致UPS跳闸,且市电进行切换导致的整个一体机机柜出现了掉电情况,然后服务器重启后,IB交换机自检硬件有问题导致自检失败所有整体的私有IP和以下的集群服务无法正常启动。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: Oracle Exadata一体机存储手册是一本详细介绍Exadata存储系统的手册。Exadata一体机是一种卓越的全flash或混合存储解决方案,旨在提供高性能、可扩展性和高可用性的数据库存储和计算能力。 在存储手册中,将涵盖以下主要内容: 1. 存储架构:介绍Exadata一体机的硬件组成,包括存储服务器、InfiniBand互连、磁盘和闪存单元等。通过了解架构,用户可以更好地理解系统的性能和扩展性。 2. 存储优化技术:介绍Exadata一体机的各种存储优化技术,如智能存储软件,Flash Cache,Smart Scans等。这些技术可以显著提高数据库查询的性能和效率,从而加快数据处理速度。 3. 存储管理:提供关于如何管理和监视Exadata存储的详细指南。包括配置和分配数据库存储资源、备份和恢复策略、性能调优等。这些管理指南可以帮助管理员更好地管理存储资源,确保高性能和可靠性。 4. 故障排除:介绍常见的存储问题和故障排除方法。这些故障排除指南可以帮助管理员快速定位和解决存储问题,以减少系统的停机时间。 此外,存储手册还可能包括配置建议、最佳实践、性能基准测试结果等,以帮助用户更好地理解和使用Exadata一体机的存储功能。 总而言之,Oracle Exadata一体机存储手册是一本重要的参考资料,它提供了关于Exadata存储系统的全面介绍和详细指南,帮助用户实现高性能、高可用性的数据库存储方案。 ### 回答2: Oracle Exadata一体机存储手册是一本详细描述Exadata一体机存储系统的指南。它包含了关于Exadata存储服务器硬件、软件和配置的详细信息。 在这本手册中,我们可以学习Exadata一体机的存储架构和原理,了解Exadata Storage Server的功能和特性。手册还介绍了如何对存储服务器进行管理和维护,包括存储服务器的配置、监控和故障排除。 手册对于如何配置Exadata一体机中的高速闪存、磁盘和存储网格进行了详细的说明。此外,它也深入介绍了Exadata存储软件的重要功能,例如智能闪存缓存、智能存储索引和硬件压缩等。 另外,手册也包含了有关存储服务器和数据库服务器之间的通信、数据传输和复制的信息。它还提供了一些最佳实践、性能调优和容量规划的建议,帮助用户充分发挥Exadata存储系统的性能和可靠性。 总而言之,Oracle Exadata一体机存储手册是一本必备的参考书,它提供了全面而深入的关于Exadata一体机存储系统的知识。无论是初学者还是有经验的管理员,都可以通过阅读手册了解Exadata存储系统的工作原理和最佳实践,从而更好地管理和优化Exadata一体机的性能和可用性。 ### 回答3: Oracle Exadata一体机存储手册是一份详细介绍Oracle Exadata存储系统的手册,旨在帮助用户更好地理解和使用该存储系统。以下是对该手册的回答: Oracle Exadata一体机存储手册是一本关于Oracle Exadata存储系统的技术手册。这本手册提供了详细的信息,包括存储系统的架构、配置、性能优化、故障排除以及最佳实践等方面的内容。 首先,该手册会详细介绍Oracle Exadata存储系统的架构。它会解释Exadata存储服务器和数据库服务器之间的连接和通信方式,以及存储系统如何与其他组件(如InfiniBand网络和闪存缓存等)相互配合工作。 其次,该手册还会介绍如何配置Exadata存储系统以满足不同的需求。它会解释如何设置和管理存储服务器、闪存缓存、磁盘组和ASM(Automatic Storage Management)等,以及如何使用不同的配置来提高性能和可用性。 此外,该手册还强调了性能优化的重要性,并提供了一些性能优化的最佳实践。它会介绍如何利用Exadata存储系统的独特功能,如智能存储缓存、智能存储卸载和智能存储索引等,来提升数据库的性能和响应能力。 最后,该手册还会阐述故障排除和故障恢复的方法。它会介绍如何识别和解决各种存储系统和数据库的故障,并提供了一些故障恢复的建议和最佳实践。 总而言之,Oracle Exadata一体机存储手册是一本非常有价值的技术资源,它为用户提供了全面的关于Exadata存储系统的信息和指导。通过阅读和理解这本手册,用户可以更好地配置、优化和管理Exadata存储系统,使其达到最佳的性能和可用性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

DBA狗剩儿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值