- 博客(18)
- 收藏
- 关注
原创 prometheus监控系统规范与流程
概要本文档主要介绍监控的使用方法、监控的配置规范以及监控的使用流程。简介:监控使用的架构为exporter+prometheus+grafana+alermanager。其中exporter包含主机,http/tcp和进程探测等功能。prometeus通过pull的方式采集机器上的指标并评估指标,将符合rule规则的指标推送至alertmanager,alertmanager通过各种渠道推送相应的告警。grafana展示prometheus采集的各种指标。监控简要架构图如下:一、部署规范说明:
2021-07-27 19:02:43 1760
原创 RBAC
k8s查看yaml文件中应该设置的apiversionkubectl explain podRBAC:基于角色的访问控制Service Account为服务提供了一种方便的认证机制,但它不关心授权的问题。可以配合RBAC来为Service Account鉴权在RABC API中,通过如下的步骤进行授权:1)定义角色:在定义角色时会指定此角色对于资源的访问控制的规则;2)绑定角色:将主体与角色进行绑定,对用户进行访问授权Role与ClusterRole一个角色包含了一套表示一组权限的规则。
2021-05-20 21:11:01 194
原创 ORA-39095
报错 ORA-39095: 转储文件空间已耗尽: 无法分配 8192 字节原因1、磁盘空间不足,增大磁盘空间或者删除不必要的文件释放空间即可。2、官方解释Because each active worker process or I/O server process writes exclusively to one file at atime, an insufficient number of files can have adverse effects. Some of the worker
2021-03-16 18:12:52 2901
原创 elasticsearch分析nginx日志并配置告警
背景项目统一入口为nginx,为了直观的统计流量以及响应时间,故打算对nginx日志进行分析思路采用es ingest node预处理功能,利用pipeline对nginx进行字段拆解,设置模板对字段进行映射,理由kibana或者grafana对映射的字段进行分析实践es端1、部署es,kibana(此处不介绍)2、打开kibana并设置pipelinepipeline的调试过程确定nginx的日志格式log_format main '$remote_addr - $remote_u
2021-03-11 17:55:34 2194
原创 tomcat linux执行shutdown.sh后进程仍然存在
故障现象:tomcat linux执行shutdown.sh后进程仍然存在,执行startup.sh后又多了个线程原因代码有开额外线程,成为tomcat子线程,如线程池或任务调度,如executorService, quartz, timer,且tomcat destroy时没有shutdown定时器,后端进程一直存在,每个进程一直占据内存,但父进程tomcat已关闭,导致成为zombie进程。解决方法:catalina.sh中pgdir上加一段if [ -z "$CATALINA_PID" ]
2021-03-11 16:36:16 659
原创 tomcat配置http自动跳转至https
1、配置web.xml(和server.xml在同一目录下),在后面一部分添加如下一段话<security-constraint> <web-resource-collection > <web-resource-name >SSL</web-resource-name> <url-pattern>/*</url-pattern> </web-resource-collection
2021-03-11 16:02:28 1299
原创 tomcat配置https
tomcat配置https在server.xml上<Connector 段添加相应的连接设置比如:<Connector port="443" protocol="org.apache.coyote.http11.Http11NioProtocol"maxThreads="150" SSLEnabled="true" scheme="https" secure="true"clientAuth="false"sslEnabledProtocols="SSLv2,SSLv3,TLSv1,
2021-03-11 15:57:40 232
原创 oracle数据库经常卡顿
背景:oracle数据库长时间很卡,业务量又比较大解决思路:查看alert日志,发现经常报错:Fri Jan 22 09:27:47 2021Thread 1 cannot allocate new log, sequence 5730Private strand flush not complete原因:redo Log经常checkpoint导致数据库卡顿,增大redolog 即可解决方法:先查看redolog的组和大小select group#,thread#,bytes/1024/1
2021-03-08 16:49:14 5523
原创 ora-28040
报错:ORA-28040: No matching authentication protocol原因:Oracle连接客户端与服务端Oracle的版本不匹配解决方法:修改 $ORACLE_HOME\NETWORK\ADMIN\sqlnet.ora 文件SQLNET.ALLOWED_LOGON_SERVER=8SQLNET.ALLOWED_LOGON_CLIENT=8SQLNET.ALLOWED_LOGON_VERSION=8...
2021-03-08 16:43:58 3550
原创 ora-01652
数据库报错ora-01652 unable to extend temp segment by num in tablespace name原因分析:可能原因:1、数据库服务器磁盘空间满,表空间使用率没满解决方法:释放磁盘或者加盘2、表空间满数据库服务器盘还很充足添加表空间查看表空间的使用率:SELECT UPPER(F.TABLESPACE_NAME) "tablespace_name",D.TOT_GROOTTE_MB "space_size",D.TOT_GROOTTE_MB -
2021-03-08 16:40:15 1618 1
原创 TNS-01168
ORACLE监听连不上,重启之后报TNS-01168原因:oracle 数据库不正常关机,启动报错,应用程序大量报错,由于应用程序未关闭,大量尝试连接数据库分配pga占爆服务器内存。监听器lsnrctl start启动报错TNS-01168 Cannot allocate memory。解决方法:有如下两种:1、关闭所有连接数据库的程序,尝试重启监听器(lsnrctl stop|start)或者2、重启服务器,释放物理内存...
2021-03-08 16:33:33 502
原创 alertmanager发送告警至es并搭建简要面板
实现方法:安装alertmanager2es将告警信息推送至es。再通过kibana进行页面展示化安装https://github.com/webdevops/alertmanager2esgit clone https://github.com/webdevops/alertmanager2escd alertmanager2es/make vendormake buildmake vendor若出现则https://blog.csdn.net/w345731923/article/d
2021-03-06 23:04:37 933
原创 alertmanager配置企业微信告警
alertmanager配置企业微信alertmanager部署详见prometheus的方案设计以及部署详解配置企业微信:[root@bogon ~]# cat /etc/alertmanager/alertmanager.ymlglobal: resolve_timeout: 5m wechat_api_url: 'https://qyapi.weixin.qq.com/cgi-bin/'templates:- '/etc/alertmanager/wechat.tmpl'rout
2021-03-06 22:48:03 2455
原创 prometheus监控服务端口
实现思路:借助blackbox exporter利用端口探测是方式实现监控服务端口。实现步骤下载地址:https://github.com/prometheus/blackbox_exporter下载tar.gz的安装包,这里演示0.16.0的版本安装步骤:1、解压安装包并赋权tar -zxvf blackbox_exporter-0.16.0.linux-amd64.tar.gz -C /usr/local/mv blackbox_exporter-0.16.0.linux-amd64
2021-03-06 22:04:06 7628 13
原创 centos7 prometheus远程存储influxdb安装与部署
安装influxdb (rpm)wget https://dl.influxdata.com/influxdb/releases/influxdb-1.7.7.arm64.rpm启动服务systemctl enable influxdbsystemctl start influxdb配置文件/etc/influxdb/influxdb.conf本地连接数据库influx -precision rfc3339创建数据库和用户:create database prometheuscreat
2021-03-03 12:31:22 874
原创 centos7安装Consul
下载连接https://www.consul.io/downloads.html这里演示arm版下载wget https://releases.hashicorp.com/consul/1.7.2/consul_1.7.2_linux_arm64.zipunzip consul_1.7.2_linux_arm64.zip设置开机自启动[root@bogon ~]# cat /usr/lib/systemd/system/consul.service [Unit]Description=Co
2021-03-03 11:24:40 269
原创 blackbox exporter制定非200指定内容返回策略
规则prometeus blackbox get方式设置非200状态码或者返回 特定内容即为成功思路:在blackbox上设置模板 http_get: prober: http timeout: 15s http: valid_status_codes: [503] preferred_ip_protocol: "ip4" method: GET fail_if_body_not_matches_regexp:
2021-03-03 11:17:21 655
原创 prometheus方案设计以及部署详解
prometheus架构设计2、prometheus监控系统搭建1、安装环境准备1.1 关闭selinux1.2 安装go环境1.3 系统主机时间、时区、系统语言3、prometheus安装4、node_exporter(wmi_exporter的安装)5、blackbox exporter的安装6、mysql exporter安装7、oracle采集器安装(linux)8、alertmanager安装9、grafana安装部署10、influxdb部署(详见influxdb)采集区的各个exporte
2021-03-03 11:12:51 882
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人