自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 Server has authorization schema version 3,but found a schema version 1 user

2018-05-17 17:41:39 220 0

原创 xtrbackup限速测试

2018-05-17 16:43:22 294 1

原创 Gone away故障原因排查

2018-05-04 11:17:20 260 0

原创 xtrabackup对于flush tables with read lock操作的设置

参数说明版本  percona-xtrabackup-2.4.8-Linux-x86_64 --kill-long-queries-timeout=N  指的是执行flush tables with read lock以后,如果flush操作被卡了N秒,则杀掉卡住它的线程,默认0的情况就是不杀死任...

2018-03-08 21:29:28 1032 0

原创 mysql统计信息收集设置

innodb_stats_persistent决定两种收集方式默认为on,指定InnoDB索引统计信息是否保存到磁盘。如果为off,那么在服务器重启或者一些其他操作时会清空之前的统计信息,其实就是清空mysql.innodb_table_stats和mysql.innodb_index_stats...

2018-02-08 15:51:51 903 0

原创 mongos数据分布不均匀,move chunk失败

现象 2018-02-06T14:41:05.130+0800 I SHARDING [Balancer] moveChunk result: { cause: { ok: 0.0, errmsg: "can't accept new chunks because  ther...

2018-02-07 18:41:48 687 0

原创 跨版本导入数据导致mysqld崩溃

现象 mysqld突然崩溃,错误日志 Attempting backtrace. You can use the following information to find out where mysqld died. If you see no messages after this, s...

2018-01-29 11:56:31 742 0

原创 mongo3.0.9库命名的一个S级bug

现象 db每隔一段时间崩溃一次,完全停服的情况下不会崩溃,mongod日志如下 2018-01-16T20:21:43.573+0800 E STORAGE  [conn18] no cursor for uri: table:asd()/collection-15-2895040321638...

2018-01-16 20:55:37 376 0

原创 大量短连接导致haproxy服务器端口耗尽

现象 现象1:在haproxy中间件层查看netstat会有大量的time_wait,大概有几万个以上 现象2:查看haproxy日志会有部分显示端口耗尽 Jan  9 14:59:04 127.0.0.1 haproxy[37]: Connect() failed for back...

2018-01-09 15:38:18 4595 0

原创 故障处理--mongos count不准

故障现象 业务上并无对这个表的delete操作,通过mongostat可以查看。但是mongos对一个表进行count操作时,发现它的计数结果会慢慢变少,然后突然有一个大幅增长,随后又逐渐减少,现象如下 mongos> db.ebay_us_detail.count() 154462481 ...

2017-12-26 15:19:01 446 0

原创 mysql唯一索引的一个小常识--Duplicate entry 'XXX' for key 'XXX'

概述 之前一直有个小误区,我以为mysql的唯一索引肯定是区分大小写的,然而实际上utf8字符集下,默认排序规则utf8_general_ci 情况下,是不区分大小写的。而在排序规则utf8_bin下是区分大小写的,这就有可能出现以下情况:之前字段是varchar  binary类型,即排序...

2017-11-10 15:36:42 36869 0

原创 利用mongosync做数据库迁移

背景 有些情况下,官方推荐的迁移方法不是那么便捷,比如mongos集群的整体迁移步骤非常繁琐,且对网络的要求很高; mongosync支持mongos集群迁移,目前支持3.0及以下版本,特别适合mongodb跨机房的迁移 目前有这么一个需求 机房A有一套mongos集群,需要迁移到机房B,...

2017-09-26 17:43:13 3167 0

原创 gtid主从报错When@@SESSION.GTID_NEXT is set to a GTID

故障现象 gtid主从报错信息 When@@SESSION.GTID_NEXT is set to a GTID, you must explicitly set it to a differentvalue after a COMMIT or ROLLBACK. Please check...

2017-08-18 17:18:12 3161 0

原创 mongos分片集群下db数量过多导致服务不可用

故障现象 每隔一段时间发现mongos连不上,mongos日志出现大量的socket连接错误 2017-08-08T17:09:31.095+0800 I SHARDING [conn52677] couldn't find database [d4ee211b4024a2d9e6bd5...

2017-08-10 22:05:30 1913 0

转载 利用binlog2sql实现闪回

转载来自 https://github.com/danfengcao/binlog2sql/blob/master/example/mysql-flashback-priciple-and-practice.md MySQL闪回原理与实战 DBA或开发人员,有时会误删或者误更新...

2017-08-07 17:53:09 636 0

原创 双主+haproxy手工切换的一个注意点

之前设计的切换逻辑 1 查询slve的延迟情况,超过N秒延迟则等待或者返回失败,确保业务影响时间最短 2 登陆proxy节点,disable当前hproxy,使得后续通过proxy的业务连接失败 3 登陆proxy节点,shutdown当前通过proxy连接的会话(如果sql能快速完成,这步其实可...

2017-07-06 11:23:39 1413 0

原创 sql_log_bin在GTID复制下的一个现象

背景 现网环境是M-M GTID+haproxy+组成的高可用需要做一个基于时间点的回档 之前的方法: 1 新建出另外一组M-M GTID高可用集群。我们将新的集群成为B,旧的集群称为A 2  分别导入A的历史备份到B集群的两个实例上,分开导入,导入期间双主同步不关,但会关闭sql_log...

2017-07-04 17:48:53 400 0

原创 故障案例---innodb表出现大量的Waiting for table level lock

故障现象 show  full processlist发现大量的innodb表出现Waiting for table level lock,业务将近不可用 原因分析 1 一开始当然是认为这是myisam引擎导致的,扫了一圈发现该db下确实有一个myisam表; 2 不过故障时无论是show  pr...

2017-06-21 16:23:20 14927 2

原创 ProxySQL快速上手

安装并登陆管理界面 1 wgethttps://github.com/sysown/proxysql/releases/download/v1.3.6/proxysql-1.3.6-1-centos67.x86_64.rpm 2 yum install perl-DBD-MySQL 3 rpm -...

2017-06-13 11:59:23 6171 2

原创 warning: ClientCursor::staticYield can't unlock b/c of recursive lock ns:

故障现象 大量的日志刷屏warning: ClientCursor::staticYield can't unlock b/c of recursive lock ns:  日志级别已经是quiet 大概每小时就写十几G,分分钟磁盘要被刷爆 mongo版本:2.6 故障...

2017-06-12 19:55:26 516 0

翻译 proxysql的配置系统

proxysql的配置系统特点 1 允许轻松自动更新配置。为此,有一个MySQL兼容的管理界面 2 允许在运行时修改尽可能多的配置项,而无需重新启动守护程序 3 允许轻松回滚错误的配置 这是使用多层配置系统实现的,允许设置从一层移动到另一层。配置系统的3层如下图所示: +----...

2017-06-09 11:37:31 1814 0

原创 故障案例--mongo 3.0鉴权导致cpu居高不下

故障现象 CPU奇高,达到接近物理机核数上限; 错误日志中的业务SQL执行较快,SQL不存在问题; 错误日志大量的刷屏以下信息 原因分析 从错误日志看,绝大部分情况都处于saslStart,查看资料发现这是mongo 3.0的鉴权机制正是SCRAM-SHA-1,于是怀疑是这个鉴权...

2017-05-25 21:37:43 932 0

原创 mongos分片集群版本升级方案

总体思路 Mongos整个分片集群版本升级时,先确定升级mongos和config server,因为经过测试,假如先升级sharding节点的话,会导致mongos查询不可用,存在版本兼容性问题,报错截图如下 另一方面,如果先升级mongos和config server节点的话,就不存在兼...

2017-05-23 20:24:14 1603 0

原创 故障案例--mongo备份文件损坏,导致mongorestore中断

故障现象 备份显示成功,不过有次准备用这个备份恢复数据库时,mongorestore却失败了,报错如下  2017-05-11T23:52:48.050+0800  Progress: 348374754/1256078901 27% (bytes) INVALID OBJECT - g...

2017-05-16 18:58:29 985 0

原创 故障案例--mongodb writeconcern为majority时的又一个bug

前言 之前的文章有提到过majority的一个坑,还谈不上bug,链接如下点击打开链接 故障现象 majority下应用层一直报错,但实际数据写入成功,包括主从节点都成功;w设置为1以后没有报错,写入成功  044dd16e-7706-4a49-b4ff-73d86a99d6fd:PRIMARY...

2017-04-14 14:40:21 1532 0

原创 故障案例--寻找瓶颈SQL的一种方法

故障现象 DB响应非常慢,连接数暴涨直到打满; 任何SQL看起来都是慢查询,都要几十秒以上; show  processlist时SQL种类非常多,短时间无法分辨哪个是引起故障的SQL,挑了几个看SQL问题不大; CPU,IO都非常低,看样子无系统瓶颈,也无任何硬件层面的报错; 故障原因...

2017-04-11 15:11:27 774 0

原创 故障案例--通过create server创建federate引擎导致主从失败

故障现象 主从同步失败,报错如下 Error 'Unknown storage engine 'FEDERATED'' on query. Default database: 'test'. Query: 'create t...

2017-04-11 14:19:39 669 0

原创 主从同步失败---Illegal mix of collations

故障现象: 主从同步报错,Error 'Illegal mix of collations (utf8mb4_unicode_ci,COERCIBLE), (latin1_swedish_ci,IMPLICIT), (utf8mb4_unicode_ci,COERCIBLE) for ...

2017-03-31 15:18:57 596 0

原创 config server高可用的怀疑(非副本集模式)

SCCC和CRCS的区别 在mongo3.4版本之前,configsvr的高可用有两种方式,一种是SCCC,即非副本集模式,一种是CSRS(副本集模式)。在mongo3.4以后已经不支持SCCC了,就我使用SCCC模式的经验看,SCCC确实太坑。个人认为,CSRS相对SCCC大概有以下优点 1 节...

2017-03-21 15:44:16 1362 0

转载 mongos删除库表的一个bug

ISSUE SUMMARY When dropping a database / collection in a sharded cluster, even if the drop is reported as successful it is possible the database / c...

2017-03-06 15:50:08 321 0

原创 从最近的mysql故障谈海量数据库的备份系统设计

前言 最近炉石传说,gitlab数据库故障在业界传得沸沸扬扬,造成了无法挽回的数据丢失。对于越是大规模的数据库系统, 如何设计一个可靠的备份系统越是至关重要。本文主要以UCloud云数据库产品UDB的备份系统为例,阐述下在海量数据库情况下,备份系统该如何设计,如何确保备份的安全性,如何避免数据库...

2017-02-08 14:51:40 2377 1

翻译 组复制官方文档翻译(依赖和限制)

Group Replication Requirements 要用于组复制的服务器实例必须满足以下要求。 基础设施 InnoDB Storage Engine. 数据必须存储在InnoDB事务存储引擎中。事务以乐观的方式执行,然后在提交时检查冲突。如果存在冲突,为了保持整个组的一致性,某...

2017-01-11 15:51:37 839 0

翻译 组复制官方文档翻译(安全性)

IP地址白名单 组复制插件具有一个配置选项,用于确定从哪些主机可以接受传入的组通信连接。此选项称为group_replication_ip_whitelist。如果在服务器s1上设置此选项,则当服务器s2正在建立与s1的连接以便进行组通信时,s1在接受s2传过来的连接之前,首先会检查白名单。如果...

2017-01-10 16:55:00 572 0

翻译 组复制官方文档翻译(group replication operations)

Deploying in Multi-Primary or Single-Primary Mode 组复制可以在以下不同模式下运行: single-primary 模式 multi-primary 模式 默认模式为单主。不可能让组的成员部署在不同的模式,例如一个配置在多主模式,而另一个在单主模式。...

2017-01-10 14:58:08 959 0

原创 mongodb启动很慢

故障现象 mongodb重启后,等了几十分钟还一直没启动完成,单节点副本集,状态一直处于startup 原因分析 查看mongod的错误日志,发现一直处于building index,但根据之前的经验,只有在重做secondary节点的时候才会经常处于building index状态,而这个...

2017-01-05 20:09:37 2790 0

原创 5.6mysqldump gtid的一个小坑

故障现象 Master-slave+GTID架构下,从master导入5.6的备份,发现数据没有同步到从库,通过查看备份文件内容,发现sql_log_bin被设置为0从而在导入时禁用了binlog引起。 /*!40101 SET@OLD_SQL_MODE=@@SQL_MODE, SQL_MOD...

2017-01-05 17:04:13 4965 1

翻译 组复制官方文档翻译(组复制监控)

Monitoring Group Replication 如果mysql编译了performance_schema,那么可以使用Perfomance schema表监视组复制。组复制添加以下两个新的P_S表: • performance_schema.replication_group_membe...

2016-12-29 11:23:29 1156 0

翻译 组复制官方文档翻译(Getting Started)

Deploying Group Replication in Single-Primary Mode 组中的每个服务器实例可以在独立的物理机器上运行,也可以在同一台机器上运行。本节介绍如何在一台物理机上创建具有三个MySQL Server实例的复制组。这意味着需要三个数据目录,每个MySQL S...

2016-12-27 19:53:57 604 0

原创 故障案例:高可用切换后数据不一致,旧主库数据丢失

故障现象: 有台物理机宕机,复制架构是master-master+半同步,期间触发了高可用容灾切换,后台显示成功切换到了备库。但是等旧主库起来后,主从状态正常,但是旧主库上却丢失了一部分数据,通过对比发现这些数据都是在宕机瞬间的写操作 原因分析: 1 假设旧主库A丢失的数据记录为X,我们去A...

2016-12-27 14:16:53 731 0

翻译 组复制官方文档翻译(组复制原理)

Group Replication Background(组复制技术原理) 创建容错系统的最常见方法是使组件冗余,换句话说,部分组件可以删除,系统应该继续按预期运行。这产生了一系列挑战,将这种系统的复杂性提高到一个完全不同的水平。具体来说,复制的数据库必须处理这样的情况,即它们需要维护和管理几个服...

2016-12-22 18:21:55 2758 0

提示
确定要删除当前文章?
取消 删除