为方便运维人员及时知晓数据库集群内部是否存在隐患或异常,在管理平台版本高于(包含)2.5.6时新增了智能巡检功能,通过该功能可以对计算节点集群进行日常数据库巡检工作,及时规避当前数据库服务在运行过程中存在的隐患问题。
功能入口:管理平台普通角色登录,点击"工具"->“智能巡检”,进入智能巡检页面。
使用前提
发起智能巡检,需要满足如下前提:
- 当前用户拥有"智能巡检"菜单权限
- 需要配置服务器SSH信息
功能介绍
智能巡检主要包括:巡检结果报告、巡检指标设置、历史巡检记录三个TAB,默认展示巡检结果报告页,且显示最新一次的巡检结果。当无历史巡检结果时,提示:“当前暂无任何巡检记录信息,您可以选择立即发起一次巡检任务”。
巡检结果报告
页面展示
页面搜索选项,包括:按主机名模糊搜索、按巡检状态搜索
勾选"进入页面时默认仅显示异常或警告状态的巡检结果"后,报告只显示警告或异常的巡检项,退出页面,状态保留。取消勾选后,显示全部巡检项
报告展示分为基础信息和详细报告。其中基础信息显示当前集群组的相关信息,详细报告又分为7大模块,分别为:
- 服务器软硬件配置
- 服务器资源使用率
- 服务器硬件可靠性
- 计算节点运行状态和统计信息
- 存储节点运行状态和统计信息
- 数据校验与检测
- 其他
发起巡检
(1) 发起巡检
点击发起巡检,弹出巡检对象选择框
(2) 巡检对象选择
(3) 正在巡检
发起巡检后,会跳转至历史巡检记录页面,并显示当前正在巡检的任务
任务状态列显示当前巡检任务的进度,页面每5s刷新
当前有正在进行巡检任务时,无法继续发起新的巡检(基于当前组)
(4) 巡检完成
巡检完成后,『任务状态』会更新为巡检完成
如存在警告或异常的巡检项,『是否存在异常或警告』统计所有巡检项的警告或异常项的数量
如不存在警告或异常的巡检项,『是否存在异常或警告』显示为否
巡检完成后,会在hotdb-management/data/Inspection目录下生成巡检过程中产生的结果文件和巡检报告
(5) 取消巡检
点击强制取消,可取消当前正在巡检的任务
取消成功后,『任务状态』更新为巡检失败
『是否存在异常或警告』显示为否
取消后的巡检任务,不会在hotdb-management/data/Inspection目录下生成文件
定时计划
除手动发起巡检任务外,也可以通过添加定时任务自动执行检测。点击『定时计划』可管理当前的定时计划任务。
定时计划最多只能加六条,可按照检测周期选择"每月"、“每季度”、“每年”
其他选项可参照手动发起任务的说明
当定时计划中巡检任务重叠,程序只会执行一个定时计划任务
当定时计划执行时,有其他的巡检任务正在进行,则间隔1min重试一次,重试最多等待10min,若依旧存在未完成的巡检任务,则该次巡检结果置为"巡检失败",失败原因提示:“同一时间有其他巡检任务正在执行”。
导出报告
点击"导出完整巡检报告-仅导出异常或警告数据",下载的报告只包含警告和异常巡检项
点击"导出完整巡检报告-导出全部完整数据",下载的报告包含所有已巡检的项
巡检完成后,报告会存放在hotdb-management/data/Inspection目录下
导出数据中,若列表历史巡检结果有"可下载文件查看详情",均会替换为 “可至hotdb-management/data/Inspection目录下载文件查看详情”
导出数据中,若列表历史巡检结果有"人工点击安装按钮进行相关软件安装",均会替换为:“请人工进行相关软件的安装”。
巡检指标设置
页面展示
显示所有巡检类目的指标,可根据巡检类目模糊匹配搜索
可按巡检对象分类列头,进行分类显示
点击巡检结果匹配规则、巡检结果匹配标准的编辑按钮,可变更对应匹配规则
服务器软硬件配置。
- 是否为虚拟机
- 系统参数配置
- 系统限制参数配置
"是否为虚拟机"的巡检结果匹配规则默认为等于,可编辑的规则为:等于、不等于、无需关注;巡检结果匹配标准默认为否,可编辑为:否、是
其余巡检类目,巡检结果匹配规则默认为包含,可编辑的规则为:包含、不包含、不包含、无需关注;巡检结果匹配