“简单事务操作”数据库（NO-SQL数据库）应用系统的可扩展性设计的十条原则...-CSDN博客

原文：《Ten Rules for Scalable Performance in “Simple Operation” Datastores》ByMichael Stonebraker and Rick Cattell

作者简介：（MIT教授，多家公司和项目的开创者）Michael Stonebraker (stonebraker@csail.mit.edu) is a professor of Electrical Engineering and Computer Science, MIT, consultant and founder, Zetics, Inc, consultant and founder, Goby, Inc., consultant and founder, VoltDB, Inc., and board member, Vertica Systems, Inc.

（译者）归纳总结：by Xiangxu Meng（yumengkk@gmail.com）from UPCOM

一、简单操作数据库系统定义 在一个事务中只对一小部分对象进行读写操作的数据库应用：常见的应用场景为——在线事务处理（OLTP），社交网络（Social network）等；
二、DBMS沿革
1、1970年提出的关系数据库为主流：Oracle，DB2，MySQL，PostgreSQL等，他们具有如下特征：
①磁盘存储；
②以表的形式组织的行存储；
③B树作为索引机制；
④写前log机制以支持crash恢复；
⑤SQL作为访问语言；
⑥以行（row）为基础的优化器和执行器；
综合如上特征，我们统称这些数据库为“通用目的事务行存储”（general-purpose traditional row stores (GPTRS)）数据库。主要服务于在线事务处理。
2、现在数据库的用途越来越广，出现了多种数据库和应用，如下表：
<a href="http://photo.blog.sina.com.cn/showpic.html#blogid=6fc2c2850100vhd5&url=http://s1.sinaimg.cn/orignal/6fc2c285ga9df575f65a0" target="_blank" style="text-decoration:none; color:rgb(62,115,160)"></a>

图一：DBMS发展图——垂直轴代表操作复杂度，水平轴代表读写特性
在新的应用中，比如OLAP倾向于基于列的存储和优化；而图表的下部的一些应用具有NO-GPTRS（No-SQL数据库为主）特性，归纳如下：
①key-value存储，如Dynamo，Scalaris等，只提供简单的key和一系列payload的存储，不支持将payload解析为多个对象的功能，不能对非主要属性进行检索；
②文档存储，如CouchDB，mongoDB，simpleDB等，支持包括多个属性的对象存储，并且提供NO-SQL语言或者例程支持，方便对数据的查询；
③可扩展的记录存储，如Hbase，BigTable，Cassandra等，支持不规则宽度记录的存储，支持表的任意垂直和水平分割，一般采取NO-SQL语言查询；
④关注与简单操作的DBMS系统，比如MySQL cluster，VoltDB等，这些系统保留了SQL和ACID，但是实现方式同GPTRS有所不同。
更加详细的分类讨论，可参见【1】。
3、NO-SQL数据库的繁荣
No-SQL的动机：如上的几类新的数据应用模式，重新限定了ACID（atomic，consistant，Isolate，Durable），包括放松了一些限制（比如将持久行，放松为“最终持久化”或者多副本共存）和仅仅支持单记录操作。

这几类应用的特性，可以总结为web应用特性：web应用在开始阶段用户较少，系统负载较轻，但是往往经历爆炸性的增长。这个问题通常的解决方案为：开始阶段只借助一个开源DBMS（如MySql数据库），而后建立多个数据库节点，进行分布式存储。在分布式存储方式下，一个表分开存储（比如一个几亿条的用户名存储，往往需要按照字母划分存在多个服务器的数据库上），数据的操作需要应用程序逻辑进行实现，该方案有如下缺点：

A、数据碎片交叉过滤和合并必须在应用程序中实现；

B、当一个事务中设计到多个节点上数据的操作时，应用程序必须保证数据的一致性操作；

C、规模较大时，节点失效的检测、恢复都很困难；

D、当系统在线时，数据模式的更改很难实现；

E、节点的添加、重配置都变的非常困难和琐碎。

所以，这种web应用的开发者常常极其痛苦，因为他们必须在应用程序中处理这些复杂的任务。所以大多数No-SQL方案就是瞄准解决该问题，但是由于新的方案和解决方式越来越多，造成开发者很难选择使用那些方案。

因此，本文为那些需要开发简单操作客户端系统而传统GPTRS数据库不再适用时，选择合适NO-SQL方案的十个原则。这十个原则，主要针对那些客户端在自己的环境运行的场景，当然，大多数原则也适用于SaaS环境以及“云环境”。

三、十条原则

①选用“shared-nothing”体系架构

如facebook的Web应用需要几百上千的数据处理器，如何将这些数据分布存储和处理？我们可以分别考量如下三种结构可用：

多处理器共享主存架构（shared-memory multiprocessing，SMP)受到存储带宽的限制，很难扩展到几亿条数据的处理和存储；

磁盘集群（disk clusters）体系架构需要处理，数据在磁盘上同步的问题，但前很少有扩展到几十台主机的场景；