淘宝数据库OceanBase SQL编译器部分 源代码阅读--Schema模式

淘宝数据库OceanBase SQL编译器部分 源代码阅读--Schema模式

什么是Database,什么是Schema,什么是Table,什么是列,什么是行,什么是User?我们能够能够把Database看作是一个大仓库,仓库分了非常多非常多的房间,Schema就是当中的房间,一个Schema代表一个房间,Table能够看作是每一个Schema中的柜子,行和列就是柜子中的格子。User就是房间的主人。简单来说,Schema是包含表,列,索引,视图等数据库对象的集合

OceanBase中的强Schema

OceanBase要求schema强类型约束,也就是要预先定义好schema。这与传统的数据库基本同样,与非常多nosql的schema-free大相径庭。
也就是说,OceanBase的数据模式是基于关系模型的。关系模型通过关系分解消除数据结构的复杂性,获得了对数据查询的能力和灵活性。而关系模型的缺点也是由于关系分解,使得在须要“组装”的数据时要进行join操作,而join则是相当耗时的操作。
大部分的NoSQl产品以MongoDb为代表,是基于文档模型的,类似json的bjson格式,因此能够存储比較复杂的数据类型,而且能够避免了join操作。在获得数据结构的可扩展性的同一时候,则失去了对通用数据查询语言(SQL)的支持。你须要又一次学习这些NoSQL产品的查询语言。
关于关系数据库与NoSQL的对照,这里有一篇好文推荐给大家:

自由模式的MySQL vs NoSQL

OceanBase中Schema的格式

依据OceanBase官方文档的介绍:
OceanBase 中的schema 表示为纯文本的ASCII码文件, 採用常见的配置文件的形式. 分成各个 section. 每一个section 下有多个配置项, 配置项名称和配置值之间用”=”连接.

OceanBase 中 schema 是以应用为单位的, 一个应用一个schema文件. 一个应用中能够包括多张表, 每张表中能够包括多个列, 以及多个联表(join)关系.

我们以以下一个样例test1.ini文件来逐个梳理Schema的各个部分。文件内容例如以下:

[app_name]       
name=collect
max_table_id=1003

[u_collect_item_id]      
table_id=1001
table_type=1
column_info=1,2,item_name,int
column_info=1,3,new_price,varchar,20
rowkey_split=0
rowkey_max_length=9
max_column_id=3

[collect_info]
table_id=1002
table_type=2
column_info=1,2,item_name,int
column_info=1,3,item_price,varchar,20
rowkey_split=8
join=rowkey[8,16]%u_collect_item_id:item_name$item_name,item_price$new_price
rowkey_max_length=17
max_column_id=3

[collect_item_id]
table_id=1003
table_type=2
column_info=0,2,item_name,varchar,20
column_info=0,3,new_price,int
rowkey_split=0
rowkey_max_length=9
max_column_id=3

应用的信息

[app_name] section为应用的信息。其它section每个代表一张表。
眼下主要有两个配置项:
name :用来配置应用的名称, 是一个长度不超过128位的字符串.
max_table_id :用来记录当前已经使用的最大的table_id. 在OceanBase中, 每一个表都由table_id唯一标识, 且table_id不能够被反复使用. max_table_id 这个配置项, 主要是为了方便 schema 生成程序记录已经使用过的table_id.

表的信息

Schema定义文件里,除了[app_name]外的其它section都是一张表的信息。 section名就是表名,因此上面文件里定义了3张表u_collect_item_idcollect_infocollect_item_id.
table_id :配置项配置了这张表在OceanBase系统中的唯一id, 由schema 生成工具自己主动生成. 在OceanBase系统中, id的取值范围是0-65535.系统会保留0-1000的table_id供系统自身使用.

table_type :用来配置表是内存表还是磁盘表. 由于一张表的动态数据存储在UpdateServer上,动态部分不受table_type影响, 所以table_type实际上表示了ChunkServer上的静态部分是放到内存中还是放到磁盘上. 该配置项取值为 1 的时候, 表示静态部分放到磁盘上, 为2的时候, 表示静态部分放到内存中.

rowkey_max_length :用来配置表中主键的最大长度.

rowkey_split :配置表在存储的时候的拆分限制. 由于一个表的数据可能放到多个tablet上存储, 这个值告诉ChunkServer, 在分裂数据到不同tablet时哪些数据是不应该被分开的, 比方, 当这个值为9的时候, 表示主键前9个字节全然同样的记录不应该被分到两个不同的tablet中.

max_column_id :配置本表中已经使用过的最大的列id, 由schema 生成程序维护并使用, 防止对列id的重用.

compress_func_name :可选项, 配置这个表在存储时使用的压缩算法名字.

block_size :可选项, 配置表在存储成sstable时,採用的block大小.

use_bloomfilter :可选项, 配置表是否使用布隆过滤器, 非零值为使用.

rowkey_is_fixed_length :可选项, 配置主键是否是固定长度值. 非零值表示主键是固定长度的. 假设不配置该项, 默认主键为固定长度.

列的配置

column_info :配置项中的内容是详细描写叙述一列的, 用”,”分开, 其内容包括列属性, 列id, 列名, 列类型.

  • 列的属性:取值为0或者1. 为0表示该列仅仅有动态数据(仅仅存在于UpdateServer); 为1表示该列既有动态数据又有静态数据(既存在于UpdateServer 又存在于 ChunkServer).

  • 列id:是这个列在表中的唯一标识, 该值由schema生成程序生成, 不能够被重用. 列id必须大于1, 系统保留id为1的用于表示主键.

  • 列名:是一个长度不超过128位的字符串.

  • 类型:列的数据类型.

所以样例中的
column_info=1,3,item_price,varchar,20
表示 : 列名字是 item_price; id 是3; 静态数据放在磁盘上; 类型是 varchar, 长度是20个字符.

由于OceanBase的联表(join)设计,使得某些仅仅有动态数据的列是有意义的, 这样的列一般在转储过程中会通过join运算转储到其他表中.

联表(Join)关系的配置

联表(join)关系是OceanBase提供的简化关联查询的有力手段.
join :这个配置项里描写叙述的是join关系的详细内容
我们看一个样例:
join=rowkey[8,16]% collect_item_info:item_name$item_name,item_price$new_price
这一行表示当前表的一个join关系.
join=rowkey[8,16]%collect_item_info 是表示用当前记录的主键的第8-16字节(闭区间) 与表collect_item_info 进行join操作. “:”后的内容表示详细发生join的列.
用”$”分开的两个列分别被称为參与join操作的左列和右列. join操作总是用右列的值合并到左列的值上, 然后将合并的结果返给用户(左列和右列的值都不发生变化, 合并仅仅体如今反给用户的结果中).
所以上述的表达是说, 当訪问当前表的时候, 假设訪问到列 item_name 或者 item_price. 则须要以当前主键的 8-16 字节为主键查找表 collect_item_info. 假设查到记录, 则用其item_name 列的值与当前记录的item_name的值做合并, 用其new_price列的值与当前记录的item_price的值做合并, 将合并的结果作为终于值返给客户.

以上的格式介绍出自OceanBase的官方文档 doc/OceanBase的schema.docx

Schema的管理

下面讨论基于OceanBase0.3版本号。
Schema由RootServer进行管理,包含Schema配置文件合Schema管理器两部分。RootServer能够通过 switch_schema switch_schema_manager 来切换不同的schema配置文件和不同的schema管理器 ObSchemaManagerV2

    bool ObRootServer2::get_schema(ObSchemaManagerV2& out_schema) const;
    /* 从本地读取新schema, 推断兼容性 */
    int ObRootServer2::switch_schema(int64_t time_stamp, ObArray<uint64_t> &deleted_tables);
    void ObRootServer2::switch_schema_manager(ObSchemaManagerV2 *schema_manager);

Schema的代码组织

与配置文件的结构类似,表、列和join联表分别相应了3个类。

class ObJoinInfo;
class ObColumnSchemaV2;
class ObTableSchema;

应用信息[app_name]的相关代码在哪?
这三个类主要功能就是对配置文件里的各个属性进行get和set。各种属性在上节已经有较具体的介绍,不再反复。

Schema管理器

Schema管理器ObSchemaManagerV2负责管理每一个Schema中的TableSchema,ColumnSchema,JoinInfo。拥有TableSchema,ColumnSchema,JoinInfo的get和set函数。
Schema管理器ObSchemaManagerV2相应了一个完整的Schema配置文件。能够从配置文件解析生成相应的TableSchema,ColumnSchema,JoinInfo。一个配置文件里能够配置多对张表,每一个表有多个列,体如今数组table_infos_columns上。,此外,还有两个ObHashMap结构以列Id和列名作为key,用于加速列的查询。

class ObSchemaManagerV2
{
public:
    /*省略其它方法,成员变量*/
    bool parse_from_file(const char* file_name, tbsys::CConfig& config);
    bool parse_one_table(const char* section_name, tbsys::CConfig& config, ObTableSchema& schema);
    bool parse_column_info(const char* section_name, tbsys::CConfig& config, ObTableSchema& schema);
    bool parse_join_info(const char* section_name, tbsys::CConfig& config, ObTableSchema& schema);
    bool parse_expire_info(const char* section_name, tbsys::CConfig& config, ObTableSchema& schema);
};
private:
    char app_name_[OB_MAX_APP_NAME_LENGTH];

    ObTableSchema    table_infos_[OB_MAX_TABLE_NUMBER];
    ObColumnSchemaV2* columns_;

    hash::ObHashMap<ObColumnNameKey,ObColumnInfo,hash::NoPthreadDefendMode> column_hash_map_;
    hash::ObHashMap<ObColumnIdKey,ObColumnInfo,hash::NoPthreadDefendMode> id_hash_map_;

    int64_t join_table_nums_;
    uint64_t join_tables_[OB_MAX_TABLE_NUMBER];

其它涉及Schema管理的模块

在OceanBase系统中,用户的读写事务都会发给MergeServer。MergeServer解析这些读写事务的内容,比如词法和语法分析、schema检查等。对于仅仅读事务,由MergeServer发给对应的ChunkServer分别运行后再合并每一个ChunkServer的运行结果;对于读写事务,由MergeServer进行预处理后,发送给UpdateServer运行。
因此在MergeServer中也存在一个Schema管理的接口ObMergerSchemaManage.

ObMergerSchemaManager管理SchemaManager,能够获取,加入和释放ObSchemaManagerV2,schema manager 最多有 MAX_VERSION_COUNT(默觉得4)个 SchemaManager的实例。我们能够通过get_schema来获取Schema管理器ObSchemaManagerV2。还能够通过add_schema,release_schema来加入或释放ObSchemaManagerV2。假设实例到达上限时继续加入,则会删除最旧的一个实例,然后在加入新的SchemaManager实例。

const ObSchemaManagerV2 * get_schema(const ObString & table_name);
const ObSchemaManagerV2 * get_schema(const uint64_t table_id);

int add_schema(const ObSchemaManagerV2 & schema, const ObSchemaManagerV2 ** manager = NULL);
int release_schema(const ObSchemaManagerV2 * schema);

总结

与传统数据库类似,OceanBase要预先定义schema。採用ASCII配置文件对Schema进行配置。一个应用使用一个schema文件. 能够包括多张表, 每张表中能够包括多个列, 以及多个联表(join)关系.RootServer负责管理Schema配置和Schema管理器。


欢迎光临我的站点----蝴蝶忽然的博客园----人既无名的专栏
假设阅读本文过程中有不论什么问题,请联系作者,转载请注明出处!

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
//供学习用,禁止用于商业用途。 2012.04.20   OceanBase解决什么问题   许多公司的核心资产是各种各样的商业数据,例如淘宝的商品、交易、订单、购物爱好等等,这些数据通常是结构化的,并且数据之间存在各种各样的关联,传统的关系数据库曾经是这些数据的最佳载体。然而,随着业务的快速发展,这些数据急剧膨胀,记录数从几千万条增加到数十亿条,数据量从百GB增加到数TB,未来还可能增加到数千亿条和数百TB,传统的关系型数据库已经无法承担如此海量的数据。OceanBase解决不断增加的结构化数据存储与查询的问题。   从Eric Brewer教授的CAP(一致性C: Consistency, 可用性A: Availability,分区容错性P: Tolerance of network Partition)理论角度分析,作为电子商务企业,淘宝和其他公司的业务对一致性和可用性的要求高于分区容错性,数据特征是数据总量庞大且逐步增加,单位时间内的数据更新量并不大,但实时性要求很高。这就要求我们提供一套更加偏重于支持CA特性的系统,同时兼顾可分区性,并且在实时性、成本、性能等方面表现良好。   OceanBase的架构   OceanBase的逻辑架构简图    ▲   OceanBase架构的一些基本概念   主键   row key,也称为primary key,类似于DBMS的主键,与DBMS不同的是,OceanBase的主键总是二进制字符串(binary string),但可以有某种结构。OceanBase以主键为顺序存放表格数据   sstable   一种数据存储格式,OceanBase用来存储一个或几个表的一段按主键连续的数据   tablet   一个表按主键划分的一个(前开后闭的)范围,通常包含一个或几个sstable,一个tablet的数据量通常在256MB左右   基准数据和动态数据   OceanBase以增量方式记录一段时间内的表格数据的增删改,从而保持着表格主体数据在一段时间内相对稳定,其中增删改的数据称为动态数据(通常在内存,也称为内存表),而一段时间内相对稳定的主体数据称为基准数据,基准数据和转储后(保存到SSD固态盘或磁盘)的动态数据以sstable格式存储   ChunkServer   保存基准数据的服务器,通常是多台,为了避免软件硬件故障导致的服务中断,同一份基准数据通常保存了3份并存储在不同ChunkServer上   UpdateServer   保存动态数据的服务器,一般是单台服务器。为了避免软件硬件故障导致的服务中断,UpdateServer记录commit log并通常使用双机热备   MergeServer   进行静态动态数据合并的服务器,常常与ChunkServer共用一台物理服务器。MergeServer使得用户能够访问到完整的最新的数据   RootServer   配置服务器,一般是单台服务器。为了避免软件硬件故障导致的服务中断,RootServer记录commit log并通常采用双机热备。由于RootServer负载一般都很轻,所以它常常与UpdateServer共用物理机器   冻结   指动态数据(也称为内存表)的更新到一定时间或者数据量达到一定规模后,OceanBase停止该块动态数据的修改,后续的更新写入新的动态数据块(即新的内存表),旧的动态数据块不再修改,这个过程称为冻结   转储   出于节省内存或者持久化等原因将一个冻结的动态数据块(内存表)持久化(转化为sstable并保存到SSD固态盘或磁盘上)的过程   数据合并(merge)   查询时,查询项的基准数据与其动态数据(即增删改操作)合并以得到该数据项的最新结果的过程。此外,把旧的基准数据与冻结的动态数据进行合并生成新的基准数据的过程也称为数据合并   联表(join)   一张表与另一张或几张表基于主键的左连接关系,类似于DBMS的自然连接   COW   Copy on Write的缩写,在OceanBase中特指BTree在更新时复制数据备份写入,避免系统锁的技术手段   OceanBase的特点   OceanBase功能   OceanBase设计和实现的时候暂时摒弃了不紧急的DBMS的功能,例如临时表,视图(view),研发团队把有限的资源集中到关键点上,当前OceanBase主要解决数据更新一致性、高性能的跨表读事务、范围查询、join、数据全量及增量dump、批量数据导入。   OceanBase数据访问特点   虽然数据总量比较大,但跟许多行业一样,淘宝业务一段时间(例如小时或天)内数据的增删改是有限的(通常一天不超过几千万次到几亿次),根据这个特点,OceanBase把一段时间内的增删改等修改操作以增量形式记录下来(称之为动态数据,通常保存在内存中),这样也使得了主体数据在一段时间内保持了相对稳定(称之为基准数据)。   由于动态数据相对较小,通常情况下,OceanBase把它保存在独立的服务器UpdateServer的内存中。以内存保存增删改记录极大地提高了系统写事务的性能。此外,假如每条修改平均消耗100 Bytes,那么10GB内存可以记录100M(即1亿)条修改,且扩充UpdateServer内存即增加了内存中容纳的修改量。不仅如此,由于冻结后的内存表不再修改,它也可以转换成sstable格式并保存到SSD固态盘或磁盘上。转储到SSD固态盘后所占内存即可释放,并仍然可以提供较高性能的读服务,这也缓解了极端情况下UpdateServer的内存需求。为了应对机器故障,动态数据服务器UpdateServer写commit log并采取双机(乃至多机)热备。由于UpdateServer的主备机是同步的,因此备机也可同时提供读服务。   因为基准数据相对稳定,OceanBase把它按照主键(primary key,也称为row key)分段(即tablet)后保存多个副本(一般是3个)到多台机器(ChunkServer)上,避免了单台机器故障导致的服务中断,多个副本也提升了系统服务能力。单个tablet的尺寸可以根据应用数据特点进行配置,相对配置过小的tablet会合并,过大的tablet则会分裂。   由于tablet按主键分块连续存放,因此OceanBase按主键的范围查询对应着连续的磁盘读,十分高效。   对于已经冻结/转储的动态数据,OceanBase的ChunkServer会在自己不是太繁忙的时候启动基准数据与冻结/转储内存表的合并,并生成新的基准数据。这种合并过程其实是一种范围查询,是一串连续的磁盘读和连续的磁盘写,也是很高效的。   传统DBMS提供了强大的事务性、良好的一致性和很短的查询修改响应时间,但数据规模受到严重制约,缺乏扩展性;现代云计算提供了极大的数据规模、良好的扩展性,但缺乏跨行跨表事务、数据一致性也较弱、查询修改响应时间通常也较长,OceanBase的设计和实现融合了二者的优势:   --------------------------------------------------------------------------------   UpdateServer:类似于DBMS中的DB角色,提供跨行跨表事务和很短的查询修改的响应时间以及良好的一致性。   ChunkServer:类似于云计算中的工作机(如GFS的chunk server),具有数据多副本(通常是3)、中等规模数据粒度(tablet大小约256MB)、自动负载平衡、宕机恢复、机器plug and play等特点,系统容量及性能可随时扩展。   MergeServer:结合ChunkServer和UpdateServer,获得最新数据,实现数据一致性。   RootServer:类似于云计算中的主控机(如GFS master),进行机器故障检测、负载平衡计算、负载迁移调度等。   --------------------------------------------------------------------------------   上述的DBMS和云计算技术的优势互补使得OceanBase既具有传统DBMS的跨行跨表事务、数据的强一致性以及很短的查询修改响应时间,还有云计算的海量数据管理能力、自动故障恢复、自动负载平衡以及良好的扩展性。   OceanBase当前在淘宝的应用   OceanBase现在已经应用于淘宝收藏夹,用于存储淘宝用户收藏条目和具体的商品、店铺信息,每天支持4~5千万的更新操作。等待上线的应用还包括CTU、SNS等,每天更新超过20亿,更新数据量超过2.5TB,并会逐步在淘宝内部推广,也期待外部合作者。   主要的性能数据   测试软硬件环境   Red Hat Enterprise Linux Server release 5.4 (Tikanga)   gcc version 4.1.2 20080704 (Red Hat 4.1.2-46)   Intel(R) Xeon(R) CPU E5520 @ 2.27GH   ChunkServer & MergeServer:Memory 16GB Disk 300GB SAS*10 NO Raid   UpdateServer & RootServer:Memory 48GB Disk 300GB SAS*6 Raid1   测试环境部署简图   ▲   测试数据规模   21亿条数据,基准数据3备份。   测试Schema   两张表,其中表1中有21列,表2中11列。   其中表1中的11列和表2中的11列存在join关系。   单条记录大小为500字节。   测试性能曲线图   Range数据查询   ▲   单条数据查询   ▲   当压力最大时,ChunkServer单台输出数据90MB/S,已经接近了千兆网卡的极限   更新数据   ▲
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值