数据仓库系统运维操作手册
数据仓库生产环境操作手册
一.运维概述
“数据仓库生产系统”的运行维护责任在于保障系统运行,运维方式主要是操作员通过工作机远程登陆到系统中的相关主机,对主机进行操作,包括automation调度系统、数据库、磁盘、软件环境、数据情况等,查看批出理的运行情况,一旦运行出现问题作相应的记录并通知相关的技术人员,作出相应的处理。
所有运维项目成员严格按照《数据仓库系统运维守则.doc》文档来进行运维检查工作,否则出现事故由值班人员和当日值班负责人承担事故责任。
二.运维内容
1.每日维护
1.1数据检查
每日批处理运行前运行完成后都需要对源头的数据和生产出的数据进行检查,确保当日批处理程序正常从事生产。检查工作在每日9:00-9:30之间完成,且必须在启动程序(批处理程序)前执行。具体规定如下:
1.1.1 转定长数据的检查
每天上午9:00--9:45之间,运维值班人员进行这项工作具体执行步骤如下:
1.在本地工作机上使用telnet远程登录工具登录到63服务器上,输入用户名sjtq,密码:cib2009edw,
2.输入命令 cd EDW/sh/log
3.输入命令 more yyyymmdd当天的日志,是否有错误信息,最后数据是否都上传结束。
4.以下错误属于正常情况:
03:00:03 : 1.检志文件失败~~~~~~~~~
03:00:03 : 1.数据标志检查失败,等待5分钟(06001/dta_varied)
正常等待情况
5.检查点如下:
1)每个大任务开始的初始化操作
03:00:00 : ================ 0.环境变量设置完毕 ================
2)数据装载,卸载,上传,整个模块处理结束的情况。
05:41:50 : ================ 2.装载Unl数据完毕 ================
05:41:50 : ----------------2.开始装载BAK数据----------------
05:41:50 : ================ 2.装载BAK数据完毕 ================
05:41:50 : ----------------3.开始卸载fix数据----------------
06:26:11 : ================3.卸载fix数据完毕================
06:26:11 : ----------------4.开始向批量数据交换平台送fix数据----------------
06001 send ok
06001 send ok
06002 send ok
06002 send ok
07002 send ok
07002 send ok
06027 send ok
06027 send ok
06:28:56 : ================4.向批量数据交换平台送fix数据完毕================
06:28:58 : END
6.查找是否存在“错误“,”出错“字样。
7.检查的模块有06001,input,06002,07002,06027几个模块的转定长情况,都要看到正常END结束。
8.检查日志中是否存在跑到一半或一部分就终止的现象。
如果没有转换成功或数据晚到,时间顺延检查,并将异常情况汇报给当日值班负责人和客户,并记录异常到《异常情况登记及处理单_YYYYMMDD.doc》中。
1.1.2 源数据是否全部到达
数据仓库每日06:00定时触发加载。在正常情况下,数据仓库项目组要求各系统源数据抽取必须在每日05:00之前完成,并传送到上海数据交换平台。如果数据抽取或传送出现错误,请源系统接口负责人在06:00前完成数据补导操作。
加载触发之后,可以看到每台etlserver上都启动了ftpall和getall两个作业,其中ftpall脚本负责从数据交互平台获取源系统文件,getall脚本负责对源系统文件进行解压、格式检查,并将检查结果存放在DQC日志表中。
检查方法:
检查项检查方法1.FTP是否结束查看AUTOMATION Monitor前台界面Running Job是否有FTPALL_ETL1,FTPALL_ETL2,GETALL_ETL1,GETALL_ETL2任务是否正在运行。若没有以上任务,说明从数据交换平台FTP数据已经完成。如果还在运行,说明有些数据文件还未到达。2. 哪些接口文件未到达
可能性一:数据交换平台没有该数据文件查看当日initall0090.pl脚本的日志,例如:ETL\LOG\CTL\20060530