原文链接:http://www.ioracle.org/archives/176
健康检查报告究竟应该检查哪些内容?以下总结一部分,水平一般,能力有限,日后有提高继续更新。
在做健康检查之前,我们应该对客户的数据库环境有一定了解,根据环境不同,检查的内容也不一样:
- 数据库为单机环境
- 数据库为集群(RAC)环境
- 有备库(分逻辑/物理备库)
鉴于目前为止做过为复杂的健康检查为在RAC+DataGuard上,所以只介绍上面三种情况。
在此之前,我们还有一点需要注意,如果是第一次做健康检查,需要统计完善数据库、操作系统环境信息;如果是日常巡检,则把重点放在性能上。
下面只讲个大概,不做细致说明,不贴代码:
第一次健康检查:
在第一次健康检查中,我们需要对客户的数据库、操作系统等做全面的信息收集,我们要做到的是:比客户更了解他的数据库!
需要收集的(补:操作系统信息可以通过配置文件或命令调用信息得知,下面为数据库)信息包括:
- 表空间使用情况:查看表空间使用率,对于使用率较高的表空间,查看其数据文件是否为自动扩展。若其数据文件为手动扩展,需要帮助/提醒客户注意及时扩展。
- 查看控制文件状态,位置
- 查看UNDO段信息
- 查看归档模式
- 查看AWR快照设置(10g后有AWR,之前使用statspack)
- 查看回收站对象,提醒客户及时清理回收站中数据
- 查看数据增长情况。并根据客户存储现状对是否扩容提出建议。
- TOP20存储对象
补充:目标既然是比用户更熟悉他们的数据库,有关业务的文件应当加以注意,如最大表(是用户表?)的记录数和备份文件位置、状态(备份重于一切啊)。
日常巡检:
【单机环境】
在单机环境中,我们重点根据AWR报告、alert日志等信息,发现客户数据库在运行过程中出现的问题。如果需要,可通过OSWatcher、NMON等对操作系统性能进行评估
- 导出、导入客户AWR报告信息(10g之前使用statspack)
- 分析客户物理逻辑读(注意,客户业务时间通常为周一至周五,对于逻辑读高点,需询问客户业务情况)
- 根据物理逻辑读,查找AWR数据,找出问题根源。
- 检查alert日志,对于其中的ORA错误,ERROR错误进行分析。对ORA-600错误需要重点分析。
- 使用OSWatcher,NMON( AIX 和 Linux 性能的免费工具)分析数据库
补充:对于AWR报告信息,很多值得注意的反映数据库性能,运行状态的信息;重点放在高耗时的等待事件和sql信息上,可作为优化的重要提示信息。
【RAC环境】此环境下就是需要对另外的节点的重复检查流程。
在单机基础上
- 两节点alert日志及AWR数据
- /etc/hosts
【备库】
- 内存使用情况
- 表空间信息
- 磁盘使用
- 同步情况
- 告警日志
这个健康检查需要检查的内容写的非常简单,可作为一个参考。这里面科技含量最高的部分,在于对Oracle知识的积累和长期分析得出的经验。
在遇到问题时,通常通过以下几种方式搜索解决方案:
ORA错误:http://www.ora-code.com/
Eygle的网站:http://www.eygle.com/
老杨的博客:http://yangtingkun.itpub.net/
AskTom:http://asktom.oracle.com/pls/apex/f?p=100:1:0:::RP,APP
来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/24582392/viewspace-688144/,如需转载,请注明出处,否则将追究法律责任。
转载于:http://blog.itpub.net/24582392/viewspace-688144/