监控体系平台
运维打怪晋级之路
2011毕业以后就从事运维工作的,从一名职场新手通过自己的学习和工作中的总结慢慢提升自己的专业技能,目前在一家互联网公司做运维架构师,主要负责公司阿里云的服务器和服务的运维工作,之前在亚信科技从事过业务维护工程师、自动化运维工程师、报表稽核开发工程师,2016年转为报表开发工程师,2018年跳槽到一家互联网公司做高级运维工程师,主要负责公司系统的运维架构以及系统安全,目前我在一家国企任职高级运维工程师。我在工作中有耐心,抗压力、爱折腾,喜欢研究自动化工具,喜欢写一些博客技术分享。擅长linux系统、shell脚本、python脚本、ELK系统、JAVA系统调优、docker、k8s等。
展开
-
Logstash 解析Kong字符串删除json嵌套字段
Logstash收集Kong的日志,有字段类型不一致导致报错原创 2023-03-28 11:14:07 · 440 阅读 · 0 评论 -
K8S集群之-ETCD集群监控
ETCD集群监控原创 2023-03-16 14:20:26 · 1456 阅读 · 0 评论 -
oracle在linux如何安装sqlldr
oracle在linux如何安装sqlldr (1) 从Oracle服务器上拷贝相应的sqlldr执行程序。 1> scp /usr/local/oracle/sqlldr 2> mkdir -p /usr/local/oracle/rdbms/mesg cd /usr/local/oracle/rdbms/mesg/ ...原创 2016-02-17 14:40:19 · 1557 阅读 · 1 评论 -
如何实现自动化部署node-exporter监控主机
都会自动携带。今天我们来讨论一下node-exporter如何实现自动化安装,如果大家有更好的方案可以留言讨论。这里主要看一下shell脚本这块,脚本使用Jenkins+Ansible分发执行。2、使用Jenkins+Ansible+Shell自动化部署。3、使用Shenll半自动化部署。原创 2023-01-11 17:57:13 · 488 阅读 · 1 评论 -
在linux环境中将Excel转换成文本
在运维自动化过程中有这样的需求,有公司使用公共文档Excel维护信息,这些信息需要运维及时获取实现自动化任务,这些自动化任务以shell为例,shell不能直接操作Excel文档,需要将Excel转换成文本然后在解析和分析,我使用GO语言开发编译成二进制命令(之前的go编译文章可以参考 https://blog.csdn.net/qq_31555951/article/details/122177160),上传到服务器当命令使用。原创 2023-01-08 09:50:09 · 2051 阅读 · 2 评论 -
如何使用Prometheus监控主机node_exporter中删除9100只保留IP
在使用Prometheus监控主机时,使用node_exporter默认instance的值是主机IP地址和端口,我们在告警的时候使用instance时候有端口,很不方便,我在处理这个问题时是添加了一个主机IP字段。原创 2022-12-30 15:51:37 · 1112 阅读 · 0 评论 -
如何在k8s的pod中查询top显示真实信息
利用LXCFS增强容器隔离性和资源可见性Linuxs利用Cgroup实现了对容器的资源限制,但在容器内部依然缺省挂载了宿主机上的procfs的/proc目录,其包含如:meminfo, cpuinfo,stat, uptime等资源信息。一些监控工具如free/top或遗留应用还依赖上述文件内容获取资源配置和使用情况。当它们在容器中运行时,就会把宿主机的资源状态读取出来,引起错误和不便。安装LXCFS[root@localhost]# wget https://copr-be.cloud.f.原创 2021-12-21 17:23:10 · 2719 阅读 · 0 评论 -
kibana大屏可视化的MySQL慢日志数据收集和展示查询
ELK收集和展示Mysql慢日志数据1、收集需求Mysql慢日志要求Mysql的慢日志可以有地方查询,便于开发人员分析问题;对应的慢日志记录如下:# Time: 2021-08-19T05:28:13.275255+08:00# User@Host: gtmed_wm[gtmed_wm] @ [10.152.160.184] Id: 50278# Schema: gtmed_wm Last_errno: 0 Killed: 0# Query_time: 4.434879 Lock.原创 2021-09-24 17:02:37 · 1546 阅读 · 0 评论 -
Grafana如何导出自己做的报表数据
Grafana如何导出自己做的报表数据原创 2021-09-02 11:04:08 · 11919 阅读 · 15 评论 -
Centos7升级OpenSSH到OpenSSH_8.0p1版本
Centos7升级OpenSSH到OpenSSH_8.0p1版本1、升级要求升级至openssl 1.1.1版本升级至openssh 8.0版本ssh -V 当前查看版本2、安装telnet (以防升级失败,连不上服务器,建议弄) 4 2020-11-01 16:34:22 rpm -qa | grep telnet 5 2020-11-01 16:34:24 rpm -qa | grep xinetd 6 2020-11-01 16:34:34.原创 2021-08-19 17:21:07 · 745 阅读 · 0 评论 -
01 - Go 语言环境安装
01 - Go 语言环境安装go语言学习第一天1、下载 windows 安装包安装完成后验证是否安装成功使用 cmd 进入 windows 的终端输入 go env2、修改 go 的环境代理配置由于默认 go 环境使用的下载包的地址是国外的地址,我们国内下载不方便,因此设置代理很有必要。国内比较好的代理如下:七牛云赞助支持的export GOPROXY=https://goproxy.cn阿里云export GOPROXY=https://mirrors.aliy.原创 2021-08-04 15:19:27 · 134 阅读 · 2 评论 -
使用prometheus监控zookeeper集群
使用prometheus监控zookeeper集群1、踩过的坑1.1、部署docker监控其中一个节点[root@gtcq-gtmed-wm-public-02 local]# docker run -it -p 9141:9141 --name=zookeeper_exporter_m -d -v /etc/localtime:/etc/localtime carlpett/zookeeper_exporter -zookeeper 10.153.23.2:2181依次部署其它节点后发现.原创 2021-07-15 19:17:53 · 4849 阅读 · 4 评论 -
如何处理PromeQL一对多的运算
如何处理PromeQL一对多的运算向量与向量之间的计算ignoring:在匹配时忽略某些标签on:将匹配限定在某些标签之内group_left:如果左边标签多的话,也就是多对一,使用group_leftgroup_right:如果右边标签多的话,也就是一对多,使用group_right一对一匹配(标签数量相同,排除不同的标签或限制指定的标签进行匹配)vector1 / ignoring(code) vector2多对一匹配和一对多vector1 on(label) group_l.原创 2021-05-25 16:39:54 · 1112 阅读 · 1 评论 -
安装kafka集群监控以及监控指标项整理
安装kafka集群监控集团的kafka集群,是保障集团消息的生产和消费的情况,需要我们运维人员进行实时监控,目前这套生产可用。安装步骤[root@gtcq-gt-resource2-db-01 opt]# cd /opt/ ;scp root@10.152.17.11:/opt/kafka* /optroot@10.152.17.11's password: kafka_exporter-1.2.0.linux-amd64.tar.gz .原创 2021-05-18 16:24:03 · 1231 阅读 · 7 评论 -
Grafana可视化工具-之Heatmap(热图)
Grafana可视化工具-之Heatmap(热图)Heatmap是Grafana的原生插件,Heatmap(热图)您可以查看一段时间内的直方图。要完全理解和使用此面板,您需要了解什么是直方图以及如何创建它们。阅读以下内容以快速了解术语直方图。什么是直方图?直方图是用于表示数值分布的图形,直方图将数值分组到一个一个的bucket当中,然后计算每个bucket中值出现次数。在直方图上,X轴表示表示数值的范围,Y轴表示对应数值出现的频次。在直方图上,对于各数值出现的次数,分布是否对称都显示的很清楚。官.原创 2021-04-06 18:56:51 · 6700 阅读 · 1 评论 -
Grafana可视化工具-之仪表测量(Gauge)图
仪表测量(Gauge)图介绍Gauge 和Bar Gauge 均是 Grafana 的原生插件,使用简单。Grafana 有几个版是将 Gauge 放在了 Singlestat 中。但 Singlestat 只支持返回单个序列/表的查询,而 Gauge 是可以支持同时有多个查询(返回多个值)的,并显示多个仪表测量(Gauge)图。使用 Gauge 实现仪表测量效果图,展示如下:注意:还可以 Value mappings 把数字映射成文字Gauge 具体设置方法General 一般设.原创 2021-04-02 14:06:17 · 7744 阅读 · 0 评论 -
Grafana可视化工具-之表格图开发
Grafana可视化工具-之表格图开发Table Panel也是Grafana的原生插件,Table Panel支持将基于时间序列的多种数据以表格式形式展示,Table Panel灵活且相对复杂Data:控制如何将查询转换为表包括Table Transform(表格转换)和ColumnsTable Transform:这是将数据/度量查询转换成表格式的主要选项可设置为Time series to rows、Time series to columns、Time series aggrega.原创 2021-04-01 13:57:35 · 5750 阅读 · 2 评论 -
Grafana可视化工具-之数字映射字符串
grafana绘图之数字映射字符串序言问题我们大家都知道prometheus存储的值是int或者float类型的,那么由于监控展现的需要如何把这些数字类型类型的字符映射成字符串呢?接下来我就以elasticsearch集群的监控状态为例给大家讲解,首先看一下效果图绘图首先是一个状态图singlestat表达式metrics:elasticsearch_cluster_health_status{cluster="gt-devops-es",color="red"}==1 or (ela.原创 2021-03-30 18:58:20 · 4466 阅读 · 0 评论 -
Grafana可视化工具-之仪表盘状态图开发
Grafana 可视化工具-之仪表盘单一状态图开发Singlestat 状态图即指是在任何时候只有一个值,想用来展示单一数据信息的图表,效果图如以下图:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aolNWY0k-1617016435536)(https://www.showdoc.com.cn/server/api/attachment/visitfile/sign/5e8a1b2189fd2ff319300e94b54bc7d8)][外链图片转存失败,源站.原创 2021-03-29 19:15:01 · 4270 阅读 · 0 评论 -
Grafana可视化工具-之仪表盘开发
Grafana可视化工具-之仪表盘如何开发1、仪表盘的一般配置2、仪表盘的变量设置使用正则处理获取的值3、仪表盘的曲线图一般配置指标配置定义坐标轴用于坐标轴和网格的显示方式,包括单位,比例,标签等图形设置Legend:查询结果美化勾选show则会显示右边的values勾选as table则会如图所示按table形式分别展示结果显示样式告警见之前的文档https://www.showdoc.com.cn/1086716137363617?page_id.原创 2021-03-25 15:55:25 · 3282 阅读 · 1 评论 -
Grafana可视化工具-之修改主题
Grafana可视化工具-之修改主题Grafana默认主题是黑色,将它修改成白色,其它需要第三方支撑修改配置文件[root@showdocserver opt]# vim /etc/grafana/grafana.ini\# Default UI theme ("dark" or "light");default_theme = dark在页面修改...原创 2021-03-24 14:53:57 · 6054 阅读 · 0 评论 -
Grafana可视化工具-之变量介绍
Grafana是很好的数据可视化工具,下面这篇文章是介绍Grafana变量知识点 Grafana变量说明:Grafana变量分四个部分General (常用)Query Options (查询选项)Selection Options(选择项)Value groups/tags (Experimental feature),Grafana还处在验证性的特征参考如下视图:分析这四部分的使用General (常用)Name(定义变量名称)Label(标签),在仪表盘上显示标.原创 2021-03-24 10:31:36 · 4689 阅读 · 2 评论 -
prometheus使用pushgateway监控网路丢包
监控网路丢包脚本[root@gtcq-gt-monitor-prometheus-01 ~]# timeout 50 ping -q -A -s 500 -W 1000 -c 1000 10.1.32.95|grep transmitted|awk '{print $6}'[root@gtcq-gt-monitor-prometheus-01 shell_script]# more icmp_gpu_monitor.sh #!/bin/bash####################.原创 2021-03-23 18:37:06 · 2860 阅读 · 3 评论 -
java性能火焰图的生成
序言如果你经常遇到 Java 线上性能问题束手无策,看着线上服务 CPU 飙升一筹莫展,发现内存不断泄露满脸茫然。别慌,这里有一款低开销、自带火焰图、让你大呼好用的 Java 性能分析工具 - async-profiler。1、准备程序[root@localhost ~]# git clone git://github.com/jvm-profiling-tools/async-profiler[root@localhost async-profiler]# yum -y install gcc+原创 2021-03-19 17:44:59 · 1597 阅读 · 0 评论 -
Arthas-Java 问题定位的终极利器-快速入门
1、序言在使用 Arthas 之前,当遇到 Java 线上问题时,如 CPU 飙升、负载突高、内存溢出等问题,你需要查命令,查网络,然后 jps、jstack、jmap、jhat、jstat、hprof 等一通操作。最终焦头烂额,还不一定能查出问题所在。而现在,大多数的常见问题你都可以使用 Arthas 轻松定位,迅速解决,及时止战。2、Arthas 介绍Arthas 是 Alibaba 在 2018 年 9 月开源的 Java 诊断工具。支持 JDK6+, 采用命令行交互模式,提供 Tab 自动不全原创 2021-03-18 18:18:43 · 231 阅读 · 0 评论 -
Prometheus-监控主机基础指标配置及告警
1、监控主机指标这是一篇介绍主机使用Prometheus监控基础数据的文章,目前生产可用,使用的是node_exporter-0.18.1版本,操作系统是centos7.X版本,使用之前请修改job="gt-dwz-node-exporter"的值对应自己在Prometheus配置的job名称。2、Prometheus配置项在prometheus.yml配置文件中添加如下配置:############gt-dwz################# - job_name: "gt-dwz-node原创 2021-03-04 15:09:19 · 3250 阅读 · 4 评论 -
运维监控体系
原创:https://www.processon.com/view/link/5f49dad3e401fd14b2242a06 密码367300原创 2021-01-27 17:09:08 · 1031 阅读 · 1 评论 -
日志使用Grafana进行监控告警
ES中的日志使用Grafana进行监控告警一、Grafana强大画图工具Grafana介绍Grafana是一个开源的度量分析与可视化套件。经常被用作基础设施的时间序列数据和应用程序分析的可视化,它在其他领域也被广泛的使用包括工业传感器、家庭自动化、天气和过程控制等。Grafana支持许多不同的数据源。每个数据源都有一个特定的查询编辑器,该编辑器定制的特性和功能是公开的特定数据来源。官方支持以下数据源:Graphite,InfluxDB,OpenTSDB,Prometheus,Elasticse.原创 2020-11-24 09:20:00 · 6416 阅读 · 1 评论 -
安装blackbox_exporter
安装blackbox_exporter上传监控软件cd /opt/ ;scp root@62.234.150.127:/opt/blackbox_exporter-0.16.0.linux-amd64.tar.gz /opt解压操作[root@gtcq-gt-monitor-prometheus-01 opt]# tar -zxvf blackbox_exporter-0.16.0.linux-amd64.tar.gz -C /usr/local/blackbox_exporter-0.16.原创 2020-10-17 19:04:47 · 3746 阅读 · 1 评论 -
记录一次K8S的容器压测监控
记录一次K8S的容器压测基本情况服务名称POD数量POD规格压测并发数压测时间用户中心登录服务1个POD1C2G30个用户登录2hGC情况YGC次数YGC/毫秒FGC次数FGCT/毫秒GCT/毫秒6849209.355123.190212.545总结:FGC次数在2小时中只进行了12次,耗时3.190毫秒;YGC总共6849次,耗时209.355毫秒;监控POD内存使用情况PromQL:topk(5,round(.原创 2020-10-17 15:54:36 · 1830 阅读 · 2 评论 -
安装kafka_exporter集群监控
安装kafka集群监控安装步骤[root@gtcq-gt-resource2-db-01 opt]# cd /opt/ ;scp root@10.152.17.11:/opt/kafka* /optroot@10.152.17.11's password: kafka_exporter-1.2.0.linux-amd64.tar.gz .原创 2020-10-17 10:47:23 · 2552 阅读 · 1 评论 -
安装elasticsearch_exporter监控
安装elasticsearch_exporter下载软件包[root@VM-39-7-centos opt]# wget https://github.com/justwatchcom/elasticsearch_exporter/releases/download/v1.1.0/elasticsearch_exporter-1.1.0.linux-amd64.tar.gz安装启动tar -zxvf elasticsearch_exporter-1.1.0.linux-amd64.tar.g.原创 2020-10-17 10:44:03 · 2507 阅读 · 2 评论 -
linux系统进程上下文频繁切换导致load average过高
进程上下文频繁切换导致load average过高现象最近发现有台虚拟机主机95%的cpu处于idle状态,内存使用率也不是特别高,而主机的load average很高问题分析先在主机上通过top、free、ps、iostat 等常用工具分析了下主机的CPU、内存、IO使用情况,发现三者都不高。通过vmstat 1 查看的结果如下:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zVes6qbQ-1601031023096)(http://10.152.160.3.原创 2020-09-25 18:50:54 · 1047 阅读 · 0 评论 -
filebeat安装和配置
1、安装ilebeat-5.4.0-x86_64.rpmrpm -ivh filebeat-5.4.0-x86_64.rpm安装步骤[root@VM_45_163_centos opt]# rpm -ivh filebeat-5.4.0-x86_64.rpmwarning: filebeat-5.4.0-x86_64.rpm: Header V4 RSA/SHA512 Signature, key ID d88e42b4: NOKEYPreparing…原创 2020-08-20 11:10:48 · 667 阅读 · 0 评论 -
open-falcon监控说明
1、为什么使用open-falcon监控运维架构服务监控Open-Falcon:介绍一、介绍监控系统是整个运维环节,乃至整个产品生命周期中最重要的一环,事前及时预警发现故障,事后提供翔实的数据用于追查定位问题。监控系统作为一个成熟的运维产品,业界有很多开源的实现可供选择。选择一款开源的监控系统,是一个省时省力,效率最高的方案。监控系统业界有很多杰出的开源监控系统。在早期,一直在用zabbix,不过随着业务的快速发展,以及互联网公司特有的一些需求,现有的开源的监控系统在性能、扩展性、和用户的使用效率方面原创 2020-07-28 09:39:25 · 1816 阅读 · 0 评论