参考文章:
http://www.mamicode.com/info-detail-590165.html
http://www.cnblogs.com/zhoujinyi/archive/2013/05/09/3067045.html
http://blog.chinaunix.net/uid-16844903-id-3360228.html
原理解析
pt-table-checksum
其工作原理在主库上运行,通过对同步的表在主库和从库分别执行checksum,比较两边的checksum值是否相同,从而判断数据是否一致。
可以通过添加–explain参数,查看pt-table-checksum具体执行了那些SQL。
– 使用–explain参数,不执行checksum,列出checksum时真正执行的SQL语句
pt-table-checksum --user=xx --password=xx --recursion-method=processlist --databases=xx --no-check-binlog-format --socket=/tmp/mysql.sock --explain
REPLACE INTO `percona`.`checksums` (db, tbl, chunk, chunk_index, lower_boundary, upper_boundary, this_cnt, this_crc) SELECT ?, ?, ?, ?, ?, ?, COUNT(*) AS cnt, COALESCE(LOWER(CONV(BIT_XOR(CAST(CRC32(CONCAT_WS('#', `id`, `k`, convert(`c` using utf8mb4), convert(`pad` using utf8mb4))) AS UNSIGNED)), 10, 16)), 0) AS crc FROM `mgr`.`sbtest1` FORCE INDEX(`PRIMARY`) WHERE ((`id` >= ?)) AND ((`id` <= ?)) /*checksum chunk*/
通过上面的SQL可以看到,pt-table_checksum是通过在主库上,将表分成不同的chunk_size,对每一个chunk中的数据,强制转换成小写字符并连接成字符串,计算这段chunk的checksum值,插入到主库的percona
.checksums
中。
==使用binlog_format=statement(而不是row)的复制方式,将该语句发送到从库执行,将从库中该chunk的checksum值,插入到从库的percona
.checksums
中,然后对比主从库的checksum值,是否相同。如果主从数据不一致,checksum值也就不一致==
pt-table-checksum会智能分析表上的索引(==使用primary key==),然后把表中的数据splite分成若干chunk,计算的时候以chunk为单位。
对于每一个chunk,把chunk中的每行每列的值都转换为字符串,然后用concat_ws()函数把转换后的字符串都连接起来,计算出该行的checksum值。checksum默认采用crc32计算。
演示如下:(只用作解释原理,与后文无关。)
mysql> insert into test(name) values ('chaoyangqu');
mysql> select * from test;
+----+------------+
| id | name |
+----+------------+
| 4 | chaoyangqu |
+----+------------+
4 rows in set (0.00 sec)
mysql> select concat_ws(',',id,name) from test;
+------------------------+
| concat_ws(',',id,name) |
+------------------------+
| 4,chaoyangqu |
+------------------------+
4 rows in set (0.00 sec)