C语言从零实现SQLite数据库(三)

这一节我们先实现一个简易版的数据库,与实际SQLite相比它有以下几点限制:

  • 仅支持两种操作:插入一行数据和打印所有数据
  • 数据只能保存在内存中(数据无法持久化)
  • 仅支持一种硬编码表

硬编码表的格式如下所示:

columntype
idinteger
usernamevarchar(32)
emailvarchar(255)

这张表虽然看起来很简单,但是它使我们能够支持多种数据类型以及不同长度的文本。

现在insert语句变成下面这样:

insert 1 user foo@bar.com

我们需要更新prepare_statement函数,让它能解析更多命令行参数。

typedef enum {
  PREPARE_SUCCESS,
  PREPARE_SYNTAX_ERROR,
  PREPARE_UNRECOGNIZED_STATEMENT
} PrepareResult;
...
  if (strncmp(input_buffer->buffer, "insert", 6) == 0) {
    statement->type = STATEMENT_INSERT;
    int args_assigned = sscanf(
      input_buffer->buffer, "insert %d %s %s", &(statement->row_to_insert.id),
      statement->row_to_insert.username, statement->row_to_insert.email
    );
    if (args_assigned < 3) {
      return PREPARE_SYNTAX_ERROR; 
    }
    return PREPARE_SUCCESS;
  }
...

解析出来的命令行参数要存储到statement对象中新增的数据结构Row中:

#define COLUMN_USERNAME_SIZE 32
#define COLUMN_EMAIL_SIZE 255

typedef struct {
  __uint32_t id;
  char username[COLUMN_USERNAME_SIZE];
  char email[COLUMN_EMAIL_SIZE];
} Row;

typedef struct {
  StatementType type;
  Row row_to_insert; // only used by insert statement
} Statement;

之后,我们需要将这些数据拷贝到与表相关的数据结构中。SQLite使用了B-tree来实现数据的快速查找、插入和删除。我们一开始会从更简单的结构开始,也会类似B-tree 在一页(page)中存放多行(row)数据,不同的是这些页以数组的形式排列,而不是以树状结构排列。

下面列出了一些实现上的关键点:

  • 行(row)都存储在一块叫做页(page)的内存中
  • 每一页(page)都要尽可能多的存储行(row)
  • 行(row)在页(page)中会被序列化成紧凑的表示形式
  • 页(page)只有在需要时才会被分配
  • 使用固定大小的指针数组存储这些页(page)

序列化与反序列化

我们首先定义行(row)的紧凑表示形式:

#define size_of_attribute(Struct, Attribute) sizeof(((Struct*)0)->Attribute)

const __uint32_t ID_SIZE = size_of_attribute(Row, id);
const __uint32_t USERNAME_SIZE = size_of_attribute(Row, username);
const __uint32_t EMAIL_SIZE = size_of_attribute(Row, email);
const __uint32_t ID_OFFSET = 0;
const __uint32_t USERNAME_OFFSET = ID_OFFSET + ID_SIZE;
const __uint32_t EMAIL_OFFSET = USERNAME_OFFSET + USERNAME_SIZE;
const __uint32_t ROW_SIZE = ID_SIZE + USERNAME_SIZE + EMAIL_SIZE;

序列化之后数据在内存中的排列类似下面这样:

columnsize(bytes)offset
id40
username324
email25536
total291

最后,我们需要序列化和反序列化操作函数:

void serialize_row(Row* source, void* destination) {
  memcpy(destination + ID_OFFSET, &(source->id), ID_SIZE);
  memcpy(destination + USERNAME_OFFSET, &(source->username), USERNAME_SIZE);
  memcpy(destination + EMAIL_OFFSET, &(source->email), EMAIL_SIZE);
}

void deserialize_row(void* source, Row* destination) {
  memcpy(&(destination->id), source + ID_OFFSET, ID_SIZE);
  memcpy(&(destination->username), source + USERNAME_OFFSET, USERNAME_SIZE);
  memcpy(&(destination->email), source + EMAIL_OFFSET, EMAIL_SIZE);
}

定义数据库表结构

接下来我们定义一些表的数据结构和常量:

#define TABLE_MAX_PAGES 100
...
const __uint32_t PAGE_SIZE = 4096;
const __uint32_t ROWS_PER_PAGE = PAGE_SIZE / ROW_SIZE;
const __uint32_t TABLE_MAX_ROWS = ROWS_PER_PAGE * TABLE_MAX_PAGES;
...
typedef struct {
  __uint32_t num_rows;
  void* pages[TABLE_MAX_PAGES];
} Table;

从上述代码中可以看到,我们把页的大小定为4KB,与大多数计算机虚拟内存系统使用的页大小一致。这意味着我们数据库中的一页对应于操作系统中的一页。这样做的原因是,操作系统以页为最小单位操作内存,有助于实现数据库在内存中的缓存。

我们暂时将数据库能使用的页的数量限制为100,之后当我们切换到树状结构时,数据库的大小将只取决于文件的大小。当然出于性能的考虑,我们还是会限制一次能在内存中缓存多少页。

行(row)不能跨越页(page)的边界。因为在内存中逻辑上相邻的两个页在物理上不一定是连续存储的。这种设定能让行的读/写变得更加容易。

如果我们想在内存中读/写某一行,下面的函数可以帮我们找到它在内存中的位置:

void* row_slot(Table* table, __uint32_t row_num) {
  __uint32_t page_num = row_num / ROWS_PER_PAGE;
  void* page = table->pages[page_num];
  if (page == NULL) {
    // Allocate memory only when we try to access page
    page = table->pages[page_num] = malloc(PAGE_SIZE);
  }
  __uint32_t row_offset = row_num % ROWS_PER_PAGE;
  __uint32_t byte_offset = row_offset * ROW_SIZE;
  return page + byte_offset;
}

现在我们可以通过execute_statement函数对表进行读/写了:

typedef enum {
  EXECUTE_SUCCESS,
  EXECUTE_TABLE_FULL
} ExecuteResult;
...
void print_row(Row* row) {
  printf("(%d, %s, %s)\n", row->id, row->username, row->email);
}
ExecuteResult execute_insert(Statement* statement, Table* table) {
  if (table->num_rows >= TABLE_MAX_ROWS) {
    return EXECUTE_TABLE_FULL;
  }

  Row* row_to_insert = &(statement->row_to_insert);

  serialize_row(row_to_insert, row_slot(table, table->num_rows));
  table->num_rows += 1;

  return EXECUTE_SUCCESS;
}

ExecuteResult execute_select(Statement* Statement, Table* table) {
  Row row;
  for (int i = 0; i < table->num_rows; i++) {
    deserialize_row(row_slot(table, i), &row);
    print_row(&row);
  }
  return EXECUTE_SUCCESS;
}

ExecuteResult execute_statement(Statement* statement, Table* table) {
  switch (statement->type) {
  case (STATEMENT_INSERT):
    return execute_insert(statement, table);
    break;
  case (STATEMENT_SELECT):
    return execute_select(statement, table);
    break;
  }
  ...

最后,我们需要创建表初始化函数和相应的内存释放函数,同时添加更多错误处理的case语句来完善我们的数据库:

Table* new_table() {
  Table* table = (Table*)malloc(sizeof(Table));
  table->num_rows = 0;
  for (int i = 0; i < TABLE_MAX_PAGES; i++) {
    table->pages[i] = NULL;
  }
  return table;
}

void* free_table(Table* table) {
  for (int i = 0; table->pages[i]; i++) {
    free(table->pages[i]);
  }
  free(table);
}
int main(int argc, char* argv[]) {
  Table* table = new_table();
  InputBuffer* input_buffer = new_input_buffer();
  while (true) {
    print_prompt();
    read_input(input_buffer);

    if (strcmp(input_buffer->buffer, ".exit") == 0) {
      if (input_buffer->buffer[0] == '.') {
        switch (do_mate_command(input_buffer)) {
        case (MATE_COMMAND_SUCCESS):
          continue;
        case (MATE_COMMAND_UNRECOGNIZED_COMMAND):
          printf("Unrecognized command '%s'.\n", input_buffer->buffer);
          continue;
        }
      }
    }

    Statement statement;
    switch (prepare_statement(input_buffer, &statement)) {
      case (PREPARE_SUCCESS):
        break;
      case (PREPARE_SYNTAX_ERROR):
        printf("Syntax error. Could not parse statement.\n");
        continue;
      case (PREPARE_UNRECOGNIZED_STATEMENT):
        printf("Unrecognized keyword at start of '%s'.\n", input_buffer->buffer);
        continue;
    }

    switch(execute_statement(&statement, table)) {
      case (EXECUTE_SUCCESS):
        printf("Executed.\n");
        break;
      case (EXECUTE_TABLE_FULL):
        printf("Error: Table full.\n");
        break;
    }
  }
}

经过上述改动,我们可以在数据库中保存数据了:

db > insert 1 cstack foo@bar.com
Executed.
db > insert 2 bob bob@example.com
Executed.
db > select
(1, cstack, foo@bar.com)
(2, bob, bob@example.com)
Executed.
db > insert foo bar 1
Syntax error. Could not parse statement.
db > .exit

下一步我们可以开始准备一些测试用例,因为:

  • 我们之后计划对表的数据结构进行大幅修改,有回归测试的需求
  • 同时有一些边界情况通过手动测试比较麻烦,如填满整张表

我们会在下一节中解决这些问题。

原文链接:Let’s Build a Simple Database: Part 3 - An In-Memory, Append-Only, Single-Table Database

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值