功能说明
TiDB 实现了通过标准 SQL 接口读取历史数据功能,无需特殊的 client 或者 driver。当数据被更新、删除后,依然可以通过 SQL 接口将更新/删除前的数据读取出来。
另外即使在更新数据之后,表结构发生了变化,TiDB 依旧能用旧的表结构将数据读取出来。
操作流程
为支持读取历史版本数据, 引入了一个新的 system variable: tidb_snapshot ,这个变量是 Session 范围有效,可以通过标准的 Set 语句修改其值。其值为文本,能够存储 TSO 和日期时间。TSO 即是全局授时的时间戳,是从 PD 端获取的; 日期时间的格式可以为: “2016-10-08 16:45:26.999”,一般来说可以只写到秒,比如”2016-10-08 16:45:26”。 当这个变量被设置时,TiDB 会用这个时间戳建立 Snapshot(没有开销,只是创建数据结构),随后所有的 Select 操作都会在这个 Snapshot 上读取数据。
TiDB 使用 MVCC 管理版本,当更新/删除数据时,不会做真正的数据删除,只会添加一个新版本数据,所以可以保留历史数据。历史数据不会全部保留,超过一定时间的历史数据会被彻底删除,以减小空间占用以及避免历史版本过多引入的性能开销。
TiDB 使用周期性运行的 GC(Garbage Collection,垃圾回收)来进行清理,关于 GC 的详细介绍参见 TiDB 垃圾回收 (GC)。
这里需要重点关注的是 tikv_gc_life_time
和 tikv_gc_safe_point
这条。 tikv_gc_life_time
用于配置历史版本保留时间,可以手动修改; tikv_gc_safe_point
记录了当前的 safePoint,用户可以安全地使用大于 safePoint 的时间戳创建 snapshot 读取历史版本。safePoint 在每次 GC 开始运行时自动更新。
插入测试数据:
mysql> show tables;
+-------------------+
| Tables_in_handong |
+-------------------+
| t1 |
+-------------------+
1 row in set (0.00 sec)
mysql>
mysql>
mysql> show create table t1;
+-------+------------------------------------------------------------------------------------------------------------------------------------------------+
| Table | Create Table |
+-------+------------------------------------------------------------------------------------------------------------------------------------------------+
| t1 | CREATE TABLE `t1` (
`id` int(10) DEFAULT NULL,
`name` varchar(20) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_bin |
+-------+------------------------------------------------------------------------------------------------------------------------------------------------+
1 row in set (0.01 sec)
mysql> select * from t1;
+------+---------+
| id | name |
+------+---------+
| 1 | handong |
+------+---------+
1 row in set (0.01 sec)
mysql> insert into t1 values(2,'xxxx');
Query OK, 1 row affected (0.05 sec)
mysql> insert into t1 values(3,'xxxx');
Query OK, 1 row affected (0.04 sec)
查看测试数据:
mysql> select * from t1;
+------+---------+
| id | name |
+------+---------+
| 1 | handong |
| 2 | xxxx |
| 3 | xxxx |
+------+---------+
3 rows in set (0.01 sec)
mysql> select now();
+---------------------+
| now() |
+---------------------+
| 2021-02-23 18:25:03 |
+---------------------+
1 row in set (0.00 sec)
继续插入测试数据:
mysql> insert into t1 values(6,'xxxx');
Query OK, 1 row affected (0.02 sec)
mysql> select now();
+---------------------+
| now() |
+---------------------+
| 2021-02-23 18:25:19 |
+---------------------+
1 row in set (0.00 sec)
设置一个特殊的环境变量,这个是一个 session scope 的变量,其意义为读取这个时间之前的最新的一个版本。
mysql> set @@tidb_snapshot="2021-02-23 18:25:10";
Query OK, 0 rows affected (0.05 sec)
mysql> select * from t1;
+------+---------+
| id | name |
+------+---------+
| 1 | handong |
| 2 | xxxx |
| 3 | xxxx |
+------+---------+
3 rows in set (0.01 sec)
清空这个变量继续查看:
set @@tidb_snapshot="";
mysql> select * from t1;
+------+---------+
| id | name |
+------+---------+
| 1 | handong |
| 2 | xxxx |
| 3 | xxxx |
| 6 | xxxx |
+------+---------+
4 rows in set (0.00 sec)
查到了最新的数据。