- 博客(104)
- 资源 (1)
- 收藏
- 关注
原创 TCP连接出现大量CLOSE_WAIT不回收的问题排查
日常运维过程中,收到“应用A”突然挂起没有处理请求的告警,然后触发“存活检查”不通过,自动重启了。
2023-11-13 09:59:22 384
原创 20230725运维日记,快速记录一下k8s故障诊断
1)A组件所发的请求是否在“全链路”过程中全部转发, 发起方(客户端)、网络是否丢包或阻塞、clb是否有异常 、k8s的ingress是否转发。事件三、pod访问外部网络,打通的不只是所在宿主机的网络及安全组,理应把整个集群所有的宿主机的IP都需要放行。事件二、宿主机能够解析域名,但pod(容器)不行,这可能是coreDNS的问题。2)结果经过排查 k8s的ingress出现异常,没有及时转发。
2023-07-25 10:33:25 177
原创 kk运维日记,sqlplus / as sysdba 慢
aix 下sqlplus / as sysdba 登陆慢,可能是dns问题。参考10年前文章:http://www.itpub.net/thread-1513521-1-1.html
2021-06-24 18:00:34 311
原创 kk运维日记,ali canal adapter安装实录
介绍canal 1.1.1版本之后, 增加客户端数据落地的适配及启动功能, 目前支持功能:客户端启动器同步管理REST接口日志适配器, 作为DEMO关系型数据库的数据同步(表对表同步), ETL功能HBase的数据同步(表对表同步), ETL功能(后续支持) ElasticSearch多表数据同步,ETL功能软件canal.adapter-1.1.5.tar.gzcanal adapter安装解压mkdir canal_adaptertar xzvf canal.
2021-06-23 11:33:44 439 1
原创 KK日记,ali Canal Server 安装实录
介绍https://github.com/alibaba/canal安装介质canal.deployer-1.1.5.tar.gzcanal.admin-1.1.5.tar.gzcanal.adapter-1.1.5.tar.gz下载地址:https://github.com/alibaba/canal/releasescanal-server安装安装包:canal.deployer-1.1.5.tar.gzmkdir canaltar xzvfcanal.dep..
2021-06-22 21:36:54 374 2
转载 【转】利用performance_schema进行故障诊断(mysql金字塔法则读书笔记)
instrunments:生产者,用于采集mysql中各种操作产生的事件信息,对应配置表中的配置项,我们可以称之为采集配置项。consumers:消费者,对应的消费者用于存储来自instruments采集的数据,对应配置表的配置项,我们可以称之为消费存储配置项。启用所有等待事件的instruments:use performance_schemaupdate setup_instruments set enabled='yes',timed='yes' where name like 'w.
2021-06-06 15:43:41 303
原创 2021-05-14 kk日记,TBASE数据表更换shard key
一、背景由于前期在进行数据导入时没有特别指定shard key,系统etl工具自动选择,导致当前的shard key不符合系统设计需求,需要重新构建分布键。二、问题如何重新构建shard key?三、思路如下1、 查阅相关资料及咨询tbase 产品技术支持,当前tbase是不支持在线更换table 的shard key。2、 更换tbase 的shard key 采用离线方式进行,过程如下:按一定规则生成需要更换shard key的表select(selec...
2021-05-14 12:51:40 530 1
原创 2021-04-30 TBASE不同版本的varchar长度
一、背景我有两个tbase实例,一个版本是v5.02,另一个是v5.04 ,我把v5.02的数据倒入到v5.04时,总是报错“ value too long actual value(206)”之类的。二、问题为什么会出现“ value too long actual value(206)”?三、分析出现这个错误通常是插入的值超出字段长度最大值所致的。1. 对比源和目标表结构和字段的长度。 发现是一致的。2. 对比源和目标数据字符集是一致的。3. 建立简单数...
2021-04-30 09:59:57 276
原创 2021-04-27 kk日记,oracle开发数据被删除调查
背景今天,收到开发同学的通知“开发环节数据库部分表被重建了,导致数据丢失,开发受阻。”,帮忙查一下什么原因。问题为什么数据表被重建?为了解答这个问题,先要找到这个人,再问他的操作。分析1、 确认数据表被重建的时间点。 select * from dba_objects where owner='XX' order by created desc;2、根据时间点找到对应操作的用户,如果你的数据库管理做得好,打开了必要的审计是可以做得到的。否则这一步就变得有不确定...
2021-04-28 09:10:28 125
原创 2021-04-22 扩容是稳定性保障终极大招?
起因前文提到我们在活动期间系统“挂了”20分钟,为了保障下次活动不“挂”,在产品和研发的指导下对应用系统进行扩容,扩容数量先按当前资源的一倍靠齐。扩容真的能解决问题吗?假设我们都是不差钱,不需要考虑roi扩容在某些场景下非常有效,但在某些场景下就是就是杯水车薪。那在那些场景下有效呢?代码的响应时间比较低,最多不超过200ms,且并发请求远大于CPU数量时,增加CPU,有效。线程在没有挂起,阻塞,死锁的情况下,线程数量不够,通过增加线程数量(本机内存足够的情况下,调整参数增加线程;横向增加实例
2021-04-22 23:45:32 134
原创 2021-04-15 kk日记,415系统支持战况总结
背景今日公司进行面膜新品发布,新品分享有奖裂变活动,活动效果很好,异常火爆,可是系统很不争气挂了20分钟,作为系统支持的负责人觉得很惭悔,夜不能眠,在进行深深的自省。过程回顾作为系统支持负责人我是有一套系统稳定支持的理论:活动方式/内容的理解活动风险的评估活动所需资源的评估活动产品基础数据在系统核对redis扣库存生产验证活动核心链路压测服务台的故障时的指引与术语限流的制定慢URL的梳理应急措施的制定集思广益的风险梳理活动前24小时变更冻结现场支持人力锁定为什么还是挂
2021-04-16 02:14:25 1099
原创 Tbase基础积累二之数据迁移工具dbbridge
一、工具介绍dbbridge是腾讯云提供的用于实现oracle、mysql等异构数据库迁移到Tbase、TDSQL的工具。目前只有私有化部署,要想获取安装包需要联系腾讯云的客服/技术支持。dbbridge的功能其实蛮多的,可以实现tbase方向数据同步和把数据订阅到kafka.二、安装过程略,因为都是腾讯云的技术工程师帮忙安装的,所以偶也不知道怎么安装。不过在未来公有云paas化的路上,懂不懂安装已经不重要了,重要怎么应用。三、应用介绍dbbridge提供四大功能:迁移评估
2021-01-03 16:18:33 2989 2
原创 Tbase基础积累一
1、概述Tbase 是在开源数据库postgresql的基础进行开发的高度兼容oracle语法的分布式数据库具体查看:https://github.com/Tencent/TBase/wiki2、架构图Coordinator:协调节点(简称CN),对外提供接口,负责数据的分发和查询规划,多 个节点位置对等,每个节点都提供相同的数据库视图;在功能上CN上只存储系统的全 局元数据,并不存储实际的业务数据。Datanode:处理存储本节点相关的元数据,每个节点还存储业务数...
2020-12-31 15:09:42 5140 2
原创 2020-09-01 kk日记,flask+flask-apscheduler的应用
1、前言最近都在“玩”flask,其中玩的出发点就是即使是实验项目都应该有价值所在,所以在上一篇实现无广告看小说后,这次要进一步丰富系统的功能——后台作业定时检测小说是否更新,如果更新了就自动下载。2、设计有一个作业配置文件——jobconifg.py 有一个作业前端,可以指定固定间隔执行程序,也可一删除作业。——shedule.html前端布局比较low,大家不要计较。flask主程序负责调用作业。3、代码3.1 jobconfig.py# -*- coding: ut
2020-09-01 22:37:05 480
原创 2020-08-27 KK日记,记录一下使用flask做的看小说网站
1、前言虽然一直干着运维的工作,但是对编程却有莫名的兴趣,于是就依仗着大学时的一些编程基础,在空闲时间自学了python、flask框架、bootstrap、jquery,html等。并用此写了一个看爽文的“工具”。2、设计思路通过爬虫爬取感兴趣的爽文,并将广告、飘窗过滤。爬取后的爽文通过浏览器阅读,左边显示目录,通过点击目录,右边显示内容。为了不占用个人电脑的空间暂时不保存爽文。3、成品展示4、撸码4.1 构造flask...
2020-08-27 11:05:48 889 1
原创 RocketMQ DLedger 多副本即主从切换配置
0、快速配置背景补充我是基于现有测试环境下3主3从的异步复制的集群下进行配置的。没有过多考虑配置变更后rocketmq消息数据的一致性问题。建议在安装部署时就按改方案进行。配置过程为了完成这次配置看了好多资料,但是并没有任何一篇技术文档提供“傻瓜式配置”和注意事项,所以为了弄清楚一些概念和验证一些配置的必要性上花了较长的时间,最后回过头来看就是那么几个步骤:1、 关闭需要配...
2020-04-16 10:07:28 1302 2
原创 2020-01-03 KK日记,第一次进行postgresql 11.5+pgpool 安装
一、安装规划安装单实例 配置主从 安装pgpool -ii二、单实例安装2.1 操作系统os: centos 7.6cpu: 4 corememory:32gdisk: 60g192.168.0.1192.168.0.22.2 postgresql 软件准备源码: postgresql 11.52.3 安装前检查使用 yum instal...
2020-01-03 14:47:10 1559
原创 2019-11-12 kk日记,使用python完成ora2pg的工作小结
一、案例从商业数据库的使用转移到开源数据库是目前的潮流,所以我也不能免俗,在工作之中,抽出一点时间研究了一下,从oracle到pg到步骤。二、问题从oracle 到 pg 要解决一系列的问题,如:在pg中使用什么架构能够实现oracle rac时的同样架构? oracle 中的sql/plsql代码如何改造? oracle 与 pg 的数据类型如何对应? 如何把oracle的...
2019-11-12 18:26:06 355
原创 2019-09-12 KK日记,oracle 19c 容器数据初体验
一、案例oracle 12c 以上数据库的其中一个新特性是容器数据库,在oracle官方文档上描述使用该新特性可以带来多个好处,具体如下:1. Cost reductionBy consolidating hardware and database infrastructure to a single set of background processes, and efficien...
2019-09-17 09:40:27 2439 1
原创 2019-03-11 KK日记,jboss jstack dump 线程状态研究
补充:jstack 使用,先找到java的进程号,然后执行jstack -l pid >> xxx.dmp vi xxx.dmp1. 前端用户发起http连接请求。2. jboss监听响应请求。 2.1 如果thread pool有可用线程,则分配可用线程处理用户请求。显示如下,一般表示有空闲的线程。 2.2如果th...
2019-03-11 11:38:56 571
原创 2019-01-28 KK日记,不得不说的ORACLE 实例的remote listener的远程注册
一、背景某天,dba完成生产库的恢复演练,然后打开测试数据库(oracle 11g rac架构),结果发现生产应用连接到我们刚恢复的数据库上,还成功执行了sql。二、问题为什么生产应用会自动连接到刚恢复的数据库呢?三、数据收集和分析3.1 检查应用配置检查应用代码没有直接连接测试库。 检查应用的通用数据库连接配置文件,没有发现连接测试库的配置。3.2 在应用端抓包发...
2019-01-29 17:06:11 1222
原创 2018-11-27 KK日记,限流应用场景思考
一、背景限流是IT业界应对突发流量造成系统崩溃的杀手锏,通过限流建立一面屏障,保护我们内部系统组件的正常运作,进一步保护上下游组件之间的正常交互。二、问题限流是什么? 限流能帮助我们什么? 什么场景下适用限流? 限流的实现工具 限流的未来畅想三、分析3.1 限流是什么?网络上定义:限流可以认为服务降级的一种,限流就是限制系统的输入和输出流量已达到保护系统的目的。一般来...
2018-11-29 09:25:45 264
原创 2018-10-19 KK日记,Mark一下几个python有趣的代码
记录一下几个有趣的命令打开一个终端窗口并执行命令,代码如下: #bash shell执行 gnome-terminal -e 'bash -c "./ccurl.py;exec bash"' #python 应用#! /usr/bin/env python# -*-coding=utf-8 -*-import osif __name__=='__main__': ...
2018-11-27 09:54:21 445
原创 2018-09-03 KK日记,记一次JVM内存使用过多的诊断
一、案例某日,收到告警“KK服务器JVM内存使用超过90%”。二、问题为什么KK服务器JVM内存使用超过90%?三、数据收集与分析3.1 收集当前JVM内存使用率jstat -gccapacity <进程号> 2s or jmap -heap <进程号>除了现场收集外,也可以配置到监控平台上收集告警。3.2 生成JVM 内存的dump文...
2018-09-03 16:09:13 605
原创 2018-08-27 KK日记,组件服务下架注意事项
一、案例某天,突然收到监考报警,内容“XXXXX短信发送失败”,原因是我们关闭了ESB服务器1和2,短息系统是直连着两台服务器的,结果短信发送失败,后来恢复这两台服务器的服务就恢复正常了。二、问题如何避免组件服务在下架时造成应用异常或故障?三、数据收集和分析缺少正确的流程指引。 缺少技术指引。 缺少培训宣导。四、优化行动4.1 制定组件服务下架制度确定下架范围,列...
2018-08-27 17:55:56 288
原创 2018-08-14 KK日记,阿里MQ消息异常回滚排查——原因:本地数据库事务变慢。
一、案例收到用户反馈,最近3天,在20:05-20:10之间阿里MQ部分消息没有消费记录。问为什么?二、问题为什么在最近3天,在20:05-20:10之间阿里MQ部分消息没有消费记录呢?三、收集及分析数据3.1 收集阿里MQ的后台日志阿里MQ管理员收集后台日志没有发现异常情况。3.2 咨询阿里的支持人员建议我们打印更多的程序处理日志 收集更多的数据 提出一些假设...
2018-08-14 10:19:09 567
原创 2018-07-19 KK日记,记一次ORACLE碎片引发的ora-1688异常
一、案例收到用户反馈,在oracle 12c 中,有一表空间ts1,明明还有500G空间,但是插入没有多少数据时就报错——ora-01688, "unable to extend table %s.%s partition %s by %s in tablespace %s“二、问题为什么还有可用空间DB还报没有足够空间扩展的错误呢?三、数据收集和分析3.1 信息确认检查表...
2018-07-20 11:09:19 1905
原创 2018-06-07 KK日记,ORA-12545故障处理
一、案例某dba反馈前几天刚安装好的rac,让一个小白碰过后,就变得不能用scan-ip访问了,报如下错误“ora-12545 Connect failed because target host or object does not exist”;但是用vip是可以访问的。二、问题为什么使用scan-vip连接DB时会报“ora-12545 Connect failed because targ...
2018-06-08 17:13:26 755
原创 2018-06-06 KK日记,ora-609错误处理一例
一、案例昨天,DBA反馈db1从5.26开始在alert_db1.log每一分钟出现4-6次"opiodr aborting process unknown ospid (30232) as a result of ORA-609"二、问题为什么这么频繁出现"opiodr aborting process unknown ospid (30232) as a result of ORA-609"?...
2018-06-06 15:20:38 2897
转载 Linux Used内存到底哪里去了?
最近在研究linux的内存时,在网上发现这篇文章非不错,所以转载了。 原创文章,转载请注明: 转载自系统技术非业余研究本文链接地址: Linux Used内存到底哪里去了?[转]http://blog.yufeng.info/archives/2456补充说明:1) 在研究我在案例时,按照该篇文章去检查,发现还是有30多g内存对不上,后来根据网上打神们的提示,发现原来是大页内存所致,只要在lin...
2018-05-30 09:08:40 2066
原创 2018-05-29 KK日记,连接ORACLE 12C时报用户名和密码不对
一、案例某天,收到同事反馈,同样用户名和密码其他同事能够成功连接,他自己不行。并报如下错误:ORA-01017: invalid username/password; logon denied二、问题为什么同样的用户和密码有的人登陆成功,有的却登陆失败?三、 数据收集和分析3.1 过往经验根据过往的经验一般是oracle 客户端版与服务器端不兼容连接工具的版本不对3.2 验证验证待连接的数据库版本...
2018-05-29 11:24:01 4472
原创 2018-04-26,KK日记,误删DBMS_LOGMNR_D.SET_TABLESPACE的表空间
一、案例我们有一个同事,在测试环境内执行完DBMS_LOGMNR_D.SET_TABLESPACE(‘TBS1’)后,又执行了drop tablespace TBS1 INCLUDING CONTENTS AND DATAFILES;结果导致系统包dbms_logmnr,DBMS_LOGMNR_INTERNAL,dbms_logmnr_d等不能正使用。很不幸,测试环境我们没有备份,那应该如何处理呢...
2018-04-27 18:42:52 581 3
原创 2018-02-14 DBA日记,MYSQL load data infile的故障排除
一、案例今天用户使用informatica从ORACLE抽数到MYSQL,结果报错,信息如下:‘incorrect datetime value '' for column 'CREATED_DATE'’二、问题为什么会产生错误‘incorrect datetime value '' for column 'CREATED_DATE'’?三、数据收集及分析3.1 收集错误信息的触发条件经与用户沟通...
2018-02-14 23:22:26 926
原创 2018-01-31 DBA日记,MYSQL left join结果数不对
一、背景今天在进行mysql sql调优时,无意中发现在mysql 5.7.13 中进行left join查询出来的结果不对。二、问题为什么mysql 5.7.13 中进行left join查询出来的结果不对?三、数据收集与分析3.1 重现t1: 记录数,6462 ; col1 非索引关键字t2: records,2582 ; col1 非
2018-01-31 14:45:05 1195
原创 2018-01-23 DBA日记,restore archivelog 失败原因之一
一、背景昨天,有一个同事问我,“为什么恢复日志失败“。二、问题为什么使用oracle rman从NBU上恢复日志失败三、收集数据及分析3.1 询问询问当前数据库的状态。 回复,成功恢复控制文件和数据文件,现处于mount状态,等待日志恢复。询问调用NBU的接口参数是否正确? 回复正确,并说明曾成功恢复数据文件。分析: NBU调用接口正常
2018-01-23 10:36:48 487
原创 2018-01-02 DBA日记,Oracle高并发Insert事务分区表与常规表性能对比
一、案例描述出于自身的好奇,和更好回答别人的提问————“oracle能够支持多少个TPS”?于是进行了如下测试。二、问题Oracle高并发Insert事务分区表与常规表性能差异多少?三、设计3.1 数据设计设计具有相同结构的常规表和分区表,两条索引,具体如下:常规表create table qq_sale (so_no varchar(10),product_name varchar(10),q
2018-01-02 16:04:16 3169 1
原创 2017-11-21 DBA日记,oracle asm ha配置全记录
一、案例描述想实现ORACLE DATABASE高可用,但又没有足够的预算购买ORACLE RAC组件,只好使用HA架构了,在过往的案例中,一般都是在采用基于操作系统层的HA软件+ORACLE+文件系统(基于操作系统层的,如ext4,jfs2等存放数据),这个套路就是实现简单,但是损失ASM提供的IO性能了。那么有什么方法,既能实现HA,又能使用ASM所提供IO性能及便捷的数据文件管理呢?
2017-12-28 16:42:34 719
原创 2017-12-05 DBA日记,mysql的datetime字段索引不能识别sysdate
一、案例描述今日在进行MYSQL日常检查时,发现有一条SQL语句,在字段类型为datetime并创建索引的情况下,进行between (sysdate()+interval(-1) hour) and sysdate()时并不会使用索引,但是用now()代替sysdate就可以使用索引,这是为什么呢?二、问题为什么datetime字段(已有且只有一个关键字的索引)与sysd
2017-12-07 15:10:40 9076 1
转载 General Thread States
General Thread StatesThe following list describes thread State values that are associated with general query processing and not more specialized activities such as replication. Many of these are usefu
2017-11-28 17:57:40 274
原创 2017-11-26 DBA日记,oracle闪回查询的源头验证
一、背景描述今日,在oracle DBA群里有一个群友提问,在没有打开闪回数据库的前提下,oracle 闪回查询是依赖于undo,还是会依赖redo ,archivelog呢?结果在群里的讨论就产生了两个派系,一个是只依赖于undo,能闪回的时间长短取决于undo表空间所能保存的数据;另一个就是先取undo,如果undo没有就去取redo,archivelog;那么到底是谁对谁错呢?对于技
2017-11-26 16:02:46 278
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人