有效应用管理的三个维度
1、交易监控(响应时间、故障隔离)
- 从用户体验的角度监控端到端交易
- 追踪交易流
- 隔离故障部件
2、应用监控(深入诊断、跨系统关联分析)
- 应用和中间件诊断
- 应用性能分析
- 深入到代码级的分析
3、资源监控(应用服务器监控、自动化响应)
- 对J2EE、MQ、Database等的监控
- 应用资源消耗分析
- 负载趋势分析
银行有很多业务系统都是复合应用(近几年大商行都已经转型分布式核心),一个典型的复合应用逻辑架构如下:
什么复合应用
- 由多个逻辑部件组成
- 分布在多个主机或者服务器平台上
- 各个部件之间通过多种接口类型相互连接
- 为客户交易提供服务
复合应用有什么特点
- 多层次 – 包括 HTTP / J2EE / BI / Legacy / RDBMS / Web Services
- 通过Web访问以及利用J2EE 作为主要的应用平台
- 需要业务集成中间件,例如WebLogic或者Tuxedo
- 可能跨越公司的组织边界
应用整体监控的维度:基础环境
应用基本运行环境
配置环境:配置文件、配置参数
数据环境:基础数据、交换数据、业务数据量
应用日志:交易日志、错误日志
进程状态:进程数量、进程资源
服务状态:可用性检查
队列状态:队列长度检查
应用监控:
-APP层监控
--应用端口监控
监控web服务端口(41、42、43、30、17、44)
--应用进程监控
监控RA、RMI服务个数、ebtimer服务(定时转帐服务)状态监控
--应用链路监控
监控 tft 7777端口监听个数、TCP服务18000端口监听个数监控
--证书同步状况监控
两种状况下报警: 1.凌晨0点后,记录最近四次证书日志文件/app/src-mon/mon/rows-record.txt文件不存在时报警 2.监控时间点,同步证书文件日志文件/app/RA/workpath/statsyn/log/statSynLog.log行数等于20分钟前行数时报警
应用整体监控的维度:负载情况
客户直接负载:例如网银等系统的外部客户直接访问负载请求情况
第三方负载:支付宝等第三方交易请求负载情况监测
内部系统间负载: 行内系统直接交易请求负载情况监测
应用整体监控的维度:交易情况
-应用交易处理能力
交易量统计分析:全天累计交易量、各时段分布数量与(历史峰值、上工作日)的对比、设定报警阀值 交易成功率统计:全天及统计周期(如:3分钟)的交易成功率情况。
交易响应速度统计:全天及统计周期(如:3分钟)的交易相应速度(分交易类型)包括平均、最高、最低等,并与阀值比对。
交易分布情况统计:全天及统计周期(如:3分钟)的交易分布情况,按照交易种类进行分布统计,考虑分布比例的报警阀值设定。
上述统计,需要下钻分析各渠道、网点的分布情况。
应用整体监控的维度:关联状态
-应用关联状态监控
系统间同步关联:分服务关联、交易关联两个层面进行其状态及相应能力检测。
系统间异步关联:分数据、报文两种类型检测,系统间异步数据关联主要关注数据传输结果、时间等,报文关联主要关注报文队列情况等。
系统内关联状态:系统内部服务或者进程之间的关联调用状态、共用资源(队列、内存等)。
应用整体监控的目标
建立业务服务视图: 配置管理数据库可视化、分析故障对业务的影响、实时观察业务的健康状况。
实现业务管理、知识管理与综合事件管理的关联,实现由传统的“资源监控”到“业务监控”的跨越: 实现知识库管理平台 实现知识库与事件处理平台的连接。
建立统一的监控报警管理平台: 整合现有的多种底层软件报警模块到整体监控报警管理平台。 统一信息接口 统一信息处理标准 统一监控报警展示窗口。
建立统一性能数据及状态的采集接口: 整合现有的多种底层软件采集模块到整体监控管理平台。 统一数据采集接口 支持多种采集方式(API、SOCKET、File、Script、HTTP、SNMP、log、ODBC、JDBC、JMX、WMI、CIM、ICMP、等)、支持多种代理方式(agent、agentless)、 统一的数据汇集及裁剪(DataWarehouse)、统一性能数据及状态展示窗口。
实现对业务系统IT基础设施与应用的整体监控,为建立面向客户感知的业务过程监控提供基础信息。
将日常繁琐、重复的日常检查和运维工作通过自动化手段,变手工为自动,逐步将运维人员从大量低级、没有技术含量的工作中解放出来,把以设施设备为监控重点的工作模式转变到以业务中心上来,将日常工作的重心转移到提升系统稳定性、优化业务过程的层面上来。
建立基于提升客户感知、以客户为中心的业务过程监控,通过对业务过程横、纵两个方向的持续检测和可用性分析,对存在性能瓶颈和可用性较差的环节进行针对性优化和提升,从而达到为客户提供高可靠、高可用的业务服务能力的目标,为改善客户感知和提升企业的服务形象提供有力保障。
建立规范、可量化的运维工作管理体系,通过故障管理、事件管理、问题管理、变更管理、发布管理、配置管理、服务级别管理、容量管理等流程的建立,全面规范企业内部的作业模式和工作流程,通过不断的优化和调整,为建立高效的企业运营管理机制提供电子化管理手段。