海量数据-事务一致性2

最新推荐文章于 2023-04-08 10:15:38 发布

sjmnh1

最新推荐文章于 2023-04-08 10:15:38 发布

阅读量594

点赞数

分类专栏：分布式相关电商相关

电商相关同时被 2 个专栏收录

35 篇文章 1 订阅

订阅专栏

分布式相关

23 篇文章 0 订阅

订阅专栏

上次我们聊到，大家对于在数据库中的一致性和在分布式体系中的一致性理解上存在差异，那么这两个看似不同，但又相同的概念，是否能够得到统一呢？

让我来尝试一下吧～

要讨论这件事，我们首先需要先忘记一致性和隔离性等概念，先来把问题重新定义一下。

之前我们也讲过，数据库底层的核心，是映射（mapping），也就是一大堆的key－value。

针对这些映射数据，我们其实只能做两件事，要么读取他，要么写入他，

而事务，则是将多个原始映射内的数据，临时的组织在一起，来满足某种业务需要。

举个例子，假设我们有一笔事务，是将Pk=4的账号内的钱转账给pk=5的人。

同时，有另外一笔事务，是将pk=6的人的钱转给pk=5的人，那么在这时候，两个事务单元就共享pk=5这个数据。而这种动态的将pk=6,pk=5,pk=4的数据组织起来来满足某一个功能的过程，就是事务。

从逻辑上来看，上面的各类操作其实应该是一个操作，但物理上却因为计算机本身的限制，而不得不分步骤进行。那么，我们就势必需要利用计算机所能提供的工具，来"模拟"成一个操作。

在模拟的过程中，我们会面临三个问题：

首先，不是每一步操作都会成功的，如果进行到一半，出现了问题，应该怎么办？

其次，因为计算机实际上只是个打字机，他一次只能针对一个映射进行一个操作，然而逻辑上又要让我们的用户看起来像是一个操作，这应该是需要高超的技术。

最后，并发性能也是个要考虑的因素。

其实，所有的关于原子性，一致性，隔离性，并发效率的相关问题，最后都可以归结到上面这三个问题上，而针对这三个问题的不同权衡点，就形成了各种一致性、隔离性的方案了。

下面，让我们深入的做一下分析：

原子性这个问题，我们在原子性的章节已经做过简要分析（后面我再调整顺序吧：）http://blog.sina.com.cn/s/blog_693f08470101rnfk.html

这次我们主要来聊的就是这个一致性和隔离性~

在概述一章，我们已经详细的描述过这台计(da)算(zi)机是如何模拟并发的。对应到实际的实现中，其实就是加锁，确保单位时间内只会有一个进程进行操作，就可以确保多步操作不会错乱了~

比如这样：

在每次进行数据读写的时候，都先加锁阻止其他线程的读写，让所有读写都顺序进行就好了。

这样，就可以做到事务隔离级别中的"可序列化"级别哦~

但明显的，这种模式会直接面临我们碰到的第三个问题：并行度上不来，速度会受到影响。

自然的，就需要想办法提高速度，毕竟更高更快更强是我们对系统的不懈追求嘛。

分析一下问题，很容易就会发现，核心的问题是一把大锁让所有请求都会相互冲突。

但很明显，事务单元1与事务单元2之间完全没有冲突，那么我们可以利用锁分离加上读写锁两个优化方式，来提升并行度。

使用这种锁分离加上读写分开的锁实现，能够实现两个不同的隔离级别：1）如果要做到"可重复读"的话，让发生过读的数据维持一把读锁，这样其他的写进程就无法获取该数据的读锁，从而保证了可重复读级别。

但这样还会维持读锁，阻塞了部分写（就像在事务单元1中的读那样），并行度还不能做到最高。

2）如果我们可以再放松一些隔离级别，在读发生的时候不维持读锁，那么我们的并行度就能进一步的得到提升~这就是"读已提交"这个隔离级别。

但代价就是读过的数据再去读，可能会发现数据已经变化了（不可重复读）

如果再往前走一步，放弃全部锁，那就是最快，但基本没保证的读未提交级别啦。

看起来挺快，但人类对于更快的追求是无止境的，大牛们还是绞尽脑汁想到了更快的方法：MVCC（多版本并发控制），至今，我还清楚的记得，在《Oracle专家高级编程》这本书里，Oracle的技术副总裁Thomas在书的开始就在炫耀他们的数据库比其他的数据库更快，并行度更好，其原因就是因为Oracle是率先使用MVCC模型进行事务管理的数据库中的一个~

MVCC事务管理模型能够做到的效果如下图：