运维监控资料总结

监控是整个运维乃至整个产品生命周期中最重要的一环,事前及时预警发现故障,事后提供详实的数据用于追查定位问题;运维自动化最重要的就是标准化一切,而监控是运维自动化体系的一环。

一、 监控运维

一般公司里的运维,大致可以分为基础运维、应用运维、运维开发、监控组四大部分,而监控是所有运维的基础。

  • 基础运维,负责IDC运维,服务器上下架,网络设备等。
  • 应用运维,也就是system administrator,系统管理员。
  • 运维开发,负责运维工具的开发,系统开发等,例如开发监控系统,代码发布系统。
  • 监控组,也就是24小时值班的人员,需要时刻关注服务器,网站的状况,出现问题后,第一时间联系相关运维以及研发人员。

二、 监控目标

监控贯穿应用的整个生命周期。即从程序设计、开发、部署、下线,监控是需要站在公司的业务角度去考虑,而不是针对某个监控技术的使用。监控的目标包括:

  1. 对系统不间断的实时监控。
  2. 实时反馈系统当前状态。
  3. 保证服务可靠性安全性。
  4. 保证业务持续稳定运行。

三、 监控方法

  1. 健康检查。健康检查是对应用本身健康状况的监控,检查服务是否还正常存活。
  2. 日志。日志是排查问题的主要方式,日志可以提供丰富的信息用于定位和解决问题。
  3. 调用链监控。调用链监控可以完整的呈现出一次请求的全部信息,包括服务调用链路、所耗时间等。
  4. 指标监控。指标是一些基于时间序列的离散数据点,通过聚合和计算后能反映出一些重要指标的趋势。

四、 监控思路

  1. 了解监控对象:我们要监控的对象你是否了解呢?比如CPU到底是如何工作的?
  2. 性能基准指标:我们要监控这个东西的什么属性?比如CPU的使用率、负载、用户态、内核态、上下文切换。
  3. 报警阈值定义:怎么样才算是故障,要报警呢?比如CPU的负载到底多少算高,用户态、内核态分别跑多少算高?
  4. 故障处理流程:收到了故障报警,我们怎么处理呢?有什么更高效的处理流程吗?

五、 监控流程

  1. 发现问题:当系统发生故障报警,我们会收到故障报警的信息
  2. 定位问题:故障邮件一般都会写某某主机故障、具体故障的内容,我们需要对报警内容进行分析,比如一台服务器连不上:我们就需要考虑是网络问题、还是负载太高导致长时间无法连接,又或者某开发触发了防火墙禁止的相关策略等等,我们就需要去分析故障具体原因。
  3. 解决问题:当然我们了解到故障的原因后,就需要通过故障解决的优先级去解决该故障。
  4. 总结问题:当我们解决完重大故障后,需要对故障原因以及防范进行总结归纳,避免以后重复出现。

六、 监控流程

基于Zabbix来构建整个监控体系生态圈。下面我们就来监控系统的整个流程:

  1. 数据采集:Zabbix通过SNMP、Agent、ICMP、SSH、IPMI等对系统进行数据采集;
  2. 数据存储:Zabbix存储在MySQL上,也可以存储在其他数据库服务;使用数据库是必备技能。
  3. 数据分析:当我们事后需要复盘分析故障时,Zabbix能给我们提供图形以及时间等相关信息,方面我们确定故障所在;
  4. 数据展示:Web界面展示、(移动APP、java_php开发一个Web界面也可以);
  5. 监控报警:电话报警、邮件报警、微信报警、短信报警、报警升级机制等(无论什么报警都可以);
  6. 报警处理:当接收到报警,我们需要根据故障的级别进行处理,比如:重要紧急、重要不紧急,等。根据故障的级别,配合相关的人员进行快速处理。

七、 监控指标

  1. 硬件监控

可以通过IPMI对硬件详细情况进行监控,并对CPU、内存、磁盘、温度、风扇、电压等设置报警设置报警阈值(自行对监控报警内容编写合理的报警范围)
IPMI工具无法获取到硬件的状态,可以借助MegaCli工具探测Raid磁盘队列状态 zabbix提供IPMI监控模板:Zabbix
IPMI Interface,系统自带的IPMI模板只能监控,风扇,电源,和部分温度

  1. 系统监控

中小型企业基本全是Linux服务器,固需要监控系统资源的使用情况,系统监控是监控体系的基础。 监控主要对象:
CPU有几个重要的概念:上下文切换、运行队列和使用率。这也是我们CPU监控的几个重点指标。通常情况,每个处理器的运行队列不要高于3,CPU
利用率中“用户态/内核态”比例维持在70/30,空闲状态维持在50%,上下文切换要根据系统繁忙程度来综合考量。针对CPU常用的工具有:htop、top、vmstat、mpstat、dstat、glances
zabbix提供系统监控模板:Zabbix Agent Interface 负载状态
内存:通常我们需要监控内存的使用率、SWAP使用率、同时可以通过zabbix描绘内存使用率的曲线图形发现某服务内存溢出等。
针对内存常用的工具有: free、top、vmstat、glances 内存使用率
IO分为磁盘IO和网络IO。除了在做性能调优我们要监控更详细的数据外,那么日常监控,只关注磁盘使用率、磁盘吞吐量、磁盘写入繁忙程度,网络也是监控网卡流量即可。
常用工具有:iostat、iotop、df、iftop、sar、glances 其它的系统监控还有运行的进程端口、进程数、登陆用户、Open
File等(详细查看zabbix自带OS Linux模板)

  1. 应用监控

应用服务监控也是监控体系中比较重要的内容,例如:LVS、Haproxy、Docker、Nginx、PHP、Memcached、Redis、MySQL、Rabbitmq等等,相关的服务都需要使用zabbix监控起来。
zabbix提供应用服务监控:Zabbix Agent UserParameter zabbix提供的Java监控:Zabbix JMX Interface percona提供MySQL数据库监控:percona-monitoring-plulgins

  1. 网络监控

微服务都是通过网络调用或被调用,一旦网络出现问题,整个微服务集群都是不可用的,所以网络监控需要细化到流量、数据包、丢包、错报、连接数等指标。我们需要借助于网络监控工具Smokeping。
Smokeping 是rrdtool的作者Tobi Oetiker的作品,是用Perl写的,主要是监视网络性能,www服务器性能,dns查询性能等,使用rrdtool绘图,而且支持分布式,直接从多个agent进行数据的汇总。
同时,由于自己监控点比较少,还可以借助很多商业的监控工具,比如监控宝、听云、基调、博瑞等。同时这些服务提供商还可以帮助你监控CDN的状态。

  1. 流量分析

网站流量分析对于运维人员来说,更是一门必须掌握的知识了。百度统计、google分析、站长工具等等,只需要在页面嵌入一个js即可。但是,数据始终是在对方手中,个性化定制不方便,于是google出一个叫piwik的开源分析工具

  1. 日志监控

通常情况下,随着系统的运行,操作系统会产生系统日志,应用程序会产生应用程序的访问日志、错误日志,运行日志,网络日志,我们可以使用ELK来进行日志监控。
对于日志监控来说,最见的需求就是收集、存储、查询、展示,开源社区正好有相对应的开源项目:logstash(收集) +elasticsearch(存储+搜索) + kibana(展示) 我们将这三个组合起来的技术称之为ELK Stack,所以说ELK Stack指的是Elasticsearch、Logstash、Kibana技术栈的结合。

  1. 安全监控

虽然Linux开源的安全产品不少,比如四层iptables,七层WEB防护nginx+lua实现WAF,最后将相关的日志都收至Elkstack,通过图形化进行不同的攻击类型展示。但是始终是一件比较耗费时间,并且个人效果并不是很好。这个时候我们可以选择接入第三方服务厂商。
三方厂商提供全面的漏洞库,涵盖服务、后门、数据库、配置检测、CGI、SMTP等多种类型,全面检测主机、Web应用漏洞自主挖掘和行业共享相结合第一时间更新0day漏洞,杜绝最新安全隐患

  1. API监控

由于API变得越来越重要,很显然我们也需要这样的数据来分辨我们提供的
API是否能够正常运作。监控API接口GET、POST、PUT、DELETE、HEAD、OPTIONS的请求
可用性、正确性、响应时间为三大重性能指标。

  1. 性能监控

全面监控网页性能,DNS响应时间、HTTP建立连接时间、页面性能指数、响应时间、可用率、元素大小等 zabbix提供URL监控:Zabbix
Web 监控 第三方监控监控大盘。各类图表一目了然,全面体现网页性能健康状况。

  1. 业务监控

主要是监控一些核心业务执行情况,对业务有一定的侵入性。没有业务指标监控的监控平台,不是一个完善的监控平台,通常在我们的监控系统中,必须将我们重要的业务指标进行监控,并设置阈值进行告警通知。

八、 监控告警
故障报警通知的方式有很多种,当然我们最常用的还是短信,邮件。

九、 告警处理
在处理故障之前,需要先清晰的认识是什么样的故障,然后再采取什么样的措施。所以我们就需要对故障等级做一个划分。例如将系统故障等级按照《信息系统安全等级保护基本要求》具体划分为四个等级,一级和二级故障为重大故障;三级和四级故障为一般性故障。我们通常根据故障的级别,故障的业务,来指派不同的运维人员进行处理。

  1. 故障处理程序
  1. 故障发现:工作人员在发现故障或接收到故障报告后,首先要记录故障发生时间和发现时间,及发现部门,发现人及联系电话,对故障的等级进行初步判定,并报告相关人员进行处理。
  2. 故障处理:发生故障的系统通知到运维人员,运维人员应先询问了解设备和配置近期的变更情况,查清故障的影响范围,从而确定故障的等级和发生故障的可能位置;对于一般性故障按照规定的故障升级上报要求进行上报,并在处理过程中及时向主管领导通报故障处理情况;对于重大故障按照规定的故障升级上报要求进行上报,并在处理过程中及时向主管领导通报故障处理情况。
  3. 故障上报:根据故障等级和发生的时限,要对故障的情况进行及时的上报,并对报告人,告知人际时间内容进行记录。重大故障由故障处理组领导负责上报,一般性故障由故障处理人员负责上报。
  1. 故障处理流程图

在这里插入图片描述

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
运维培训资料(一) 一、根本要求 责任心 运维人员,特别是现场值班人员首先要有较强的责任心。运维工作责任重大,我们必须 深刻意识到运维工作肩负着客户的人生和财产平安。 时间观念 运维人员需有较强的时间观念〔如:驻地值班人员要准时发送水情通知、汛期内天气预 报有雨或预计会降雨时晚上需要不定时起床观察是否有降雨等情况等〕,水情报汛特别 是对在建工程,须在规定时间内做出较为准确的洪水预报。 学习能力 作为没有经历特别是非水工专业的运维人员,必须具有主动和较强的学习能力,运维工 作是一个逐步学习成长的过程,包括水雨情预报精度、设备故障维护等都需要逐步学习 提高。 效劳理念 运维部作为公司的售后效劳部门,提高运维人员的效劳理念至关重要,运维工作不仅限 于水情雨系统运行和设备维护,也包括维护公司与客户关系等,在力所能接的范围内帮 助客户处理一些问题〔如电脑故障、网络故障等〕,做到想用户所想,急用户所急,以 满足客户需要为已任。 遵守纪律 自我约束 首先,水情值班相比照拟枯燥,值班人员需适应该工作环境,值班人员长驻外地,公司 及部门领导不能对其进展直接收理,故各驻地值班人员必须自觉遵守并执行公司及客户 相关规章制度,养成自我约束的良好习惯,如因为值班员不遵守相关制度遭到客户投诉 的,公司将根据情节做出相应处分。 二、运维值班分类 1、运维人员值班驻地划分 驻水利厅、驻地〔州、市〕水利局、驻县水利局、驻水电站和水库 2、各地值班人员工作职责和内容 驻水利厅:值班性质:系统维护和山洪灾害预警 负责所辖省〔市、区〕区域水雨情适时监控、水雨情数据整理和传送、设备运行情况监 控、设备故障分析上报、所驻水利厅下达的相关工作。确保水雨情设备正常运行,水雨 情资料收集、整编、传送准时准确无误,保障公司和所驻水利厅之间的工作正常开展。 驻水利局 值班性质:系统维护和山洪灾害预警 负责所辖地〔州、市〕、县区域的水雨情适时监控,水雨情数据整理和传送、设备运行 情况监控、设备故障分析上报、所驻水利局下达的相关工作。确保水雨情设备正常运行 ,水雨情资料收集、整编、传送准时准确无误,保障公司和所驻水利局之间的工作正常 开展。 驻水电站 值班性质:系统维护和洪水预报 负责所驻水电站水雨情测报系统的运行和简单维护,及时收集水文气象信息、监控各测 站降雨和水位变化信息、沽期外测站巡检和汛期洪水预报等工作,具体工作参照水电站 值班制度和水雨情报汛等相关制度。 驻水库 值班性质:系统维护和洪水预报 负责所驻水库水雨情测报系统的运行和简单维护,监控各测站降雨量和库区水位变化信 息、大坝渗压等相关工作,具体工作参照水库值班制度和水雨情报汛制度。 三、值班须知及奖惩制度 详见运维部奖惩制度及XX东方世纪科技XX公司2021年效劳内容表及各类规章制度。 四、洪水作业预报考前须知 1、了解流域及暴雨洪水特性 流域特性:流域面积、河长、坡度、干支流水系,岩溶洼地,水利工程,水文测站情况 ,河道行洪能力等。 暴雨洪水特性:历史上的暴雨、洪水情况,干支流洪水组合特点。假设洪水流向与暴雨 中心走向一致,易成洪灾。 2、掌握规程标准、了解工程设计 规程标准:"降水量观测标准"〔SL21-2006〕、"水位观测标准"〔GBJ 138- 90〕、"水文情报预报标准"(SL250—2000)。 了解工程设计中与洪水预报相关的内容,如历史洪水、设计洪水、控制断面水位流量关 系等。 3、熟悉预报方案 熟悉洪水预报方案是提高洪水预报精度的手段之一。 利用预报方案进展洪水预报时,要根据实际发生的降水情况、流域下垫面情况、人类活 动影响、水利工程控制与调度运用情况以及流域的前期土壤含水量等情况灵活运用,不 要生搬硬套。同时每次洪水过后要对预报方案进展必要的修正和总结,以便以后预报时 参考。只有灵活掌握与合理运用洪水预报方案,才能不断提高洪水预报精度。 4、及时掌握流域降水信息 降水信息是洪水预报的信息输入局部,只有及时准确的降水信息输入,才能得出较为可 靠的洪水预报结果。降水信息的正确性直接决定着预报成果的精度,对同一流域,不同 的降水,其产生的洪水是不同的,即使是降水量一样,其降雨量在时空上的分布以及降 水强度的差异,也将直接影响到其产生的洪水的大小。因此,在实际作业预报中,只有 及时掌握流域上的降水情况,包括降水量的大小、降水强度、暴雨中心位置以及在面上 的分布情况等,特别是暴雨梯度大,雨量站控制不好的流域,要千方百计的收集降水信 息,才能根据降水特点,做出符合实际的洪水预报。 当前,降水多是通过遥测雨量站收集,对采集的降雨资料要进展时空分析,检查是否出 现误报、未报等情况,去伪存真。 如牛都电站2021-6- 23降雨期间,5个监测站中,林溪站一直没有降雨,这种情况一是确实没有降雨,二是数 据未采集到〔后来
一、需求概述 本文档主要描述一款数据同步工具的需求,该工具需要实现以下功能: 1. 实时同步:能够实现数据的实时同步,可以在数据源和目标库之间实时传输数据。 2. 离线同步:能够实现数据的离线同步,可以在指定时间段内进行数据同步。 3. 全量同步:支持全量数据同步,将源数据完全同步到目标库。 4. 增量同步:支持增量数据同步,只将源数据中新增或修改的数据同步到目标库。 5. 运维监控:提供运维监控功能,包括任务状态、同步速度、同步错误等信息的监控和报警。 6. 任务管理:提供任务管理功能,包括任务创建、修改、删除等操作。 二、详细需求 1. 实时同步 1.1. 支持不同数据源之间的实时同步,包括MySQL、Oracle、SQL Server等关系型数据库,以及Kafka等非关系型数据库。 1.2. 支持实时同步的数据类型包括文本、数值、日期、二进制等。 1.3. 支持实时同步过程中的异常处理,如数据重复、格式错误、连接失败等。 1.4. 支持实时同步的性能调优,如设置并发数、缓存大小等参数。 2. 离线同步 2.1. 支持指定时间段内的数据同步,包括每日、每周、每月等周期性同步。 2.2. 支持离线同步的数据源和目标库与实时同步相同。 2.3. 支持离线同步过程中的异常处理,如数据重复、格式错误、连接失败等。 2.4. 支持离线同步的性能调优,如设置并发数、缓存大小等参数。 3. 全量同步 3.1. 支持全量数据同步,将源数据完全同步到目标库。 3.2. 支持全量同步的数据源和目标库与实时同步相同。 3.3. 支持全量同步过程中的异常处理,如数据重复、格式错误、连接失败等。 3.4. 支持全量同步的性能调优,如设置并发数、缓存大小等参数。 4. 增量同步 4.1. 支持增量数据同步,只将源数据中新增或修改的数据同步到目标库。 4.2. 支持增量同步的数据源和目标库与实时同步相同。 4.3. 支持增量同步过程中的异常处理,如数据重复、格式错误、连接失败等。 4.4. 支持增量同步的性能调优,如设置并发数、缓存大小等参数。 5. 运维监控 5.1. 提供任务状态监控,包括任务是否正常执行、同步速度等信息。 5.2. 提供同步错误监控,包括同步过程中出现的错误日志和异常处理。 5.3. 提供报警功能,当任务出现异常时,能够通过邮件、短信等方式通知管理员。 6. 任务管理 6.1. 支持任务创建,包括数据源、目标库、同步方式、同步时间等信息的设置。 6.2. 支持任务修改,允许管理员修改任务的配置信息。 6.3. 支持任务删除,允许管理员删除指定任务。 6.4. 支持任务调度,能够自动执行任务,避免人工操作的繁琐。 三、总结 本文档描述了一款数据同步工具的需求,包括实时同步、离线同步、全量同步、增量同步、运维监控、任务管理等功能。这些功能可以满足企业数据同步的需求,提高数据同步效率和数据准确性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

熊野君

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值