ScyllaDB 介绍

salahi

已于 2023-02-06 11:11:48 修改

阅读量2.7k

点赞数

分类专栏：互联网核心技术文章标签： ScyllaDB Cassandra NoSQL 数据库 Powered by 金山文档

于 2023-02-06 11:09:21 首次发布

本文链接：https://blog.csdn.net/salahi/article/details/128898301

版权

互联网核心技术专栏收录该内容

7 篇文章 0 订阅

订阅专栏

ScyllaDB是一个由C++编写的开源实时大数据NoSQL数据库，提供10倍于ApacheCassandra的性能和更低的尾部延迟。它侧重于分区容错性和可用性，适合处理大数据量、需要高可用性和实时处理的应用。ScyllaDB与Cassandra兼容，简化了管理，并在多个案例中显示了成本和性能的优势。

摘要由CSDN通过智能技术生成

内容编写于2020年11月，最新内容请自行查看官网。

概述

开源实时大数据 NoSQL 数据库

C++编写，替换 Apache Cassandra

10倍的性能，更低尾部延迟（low tail latency）

由KVM hypervisor的创建者创建

ScyllaDB 是提供了一致的、高吞吐量、高可用性和高度可伸缩的NoSQL数据库。

ScyllaDB 属于列式存储数据库，代表数据库有： Apache Cassandra、Apache HBase、Amazon DynamoDB

CAP定理

CAP，即一致性，可用性和分区容错性。按照CAP定理：分布式数据库系统只能满足三项中的两项。

一致性保证每次读取都会收到最新的写入或错误

可用性保证每个请求都收到一个非错误响应。（请注意，这里不能保证响应包含最新的写操作）

分区容忍性可确保即使网络丢弃某些消息或出现网络故障，系统也可以继续运行。

在Scylla中，优先考虑分区容错性和可用性（HA，高可用性），而不是一致性。其他数据库（例如HBase）更喜欢一致性而不是可用性。

最佳使用场景

大数据量：处理TB级到PB级数据的应用程序

高可用性：需要始终可用的、多数据中心数据存储与处理的应用程序。

实时：需要非常快速的亚毫秒级读/写操作的应用程序。

高性能：每个节点每秒需要数百万个请求的应用程序。

用例：Kiwi.com 是美国的旅行网站，使用21个节点Scylla替换100个节点Apache Cassandra+50个节点Redis，不仅每年节省了27.5万美元的数据中心成本，而且降低了复杂性并提高了性能。

Scylla 优势

节点数少

性能稳定

降低复杂度

Apache Cassandra 兼容性

节点数少

有一家公司有120个Cassandra节点，每年的费用是60万美元，每秒对大约10TB的数据集执行大约几百万次操作。

使用Scylla替换：

第一步服务节点数从120降到24，这样使数据中心成本降低80%，并且减少了维护升级等方面的管理工作。

再进一步，使用成本相同的3台i3.16xlarge替换24台i3.2xlarge，获得更好的性能的同时也节省大量管理工作。

性能稳定

某个服务

黄线为Apache Cassandra，在执行垃圾回收、压缩等操作时延迟增大

绿线为Scylla，相比延迟较小，且比较稳定。

复杂性降低

自动调节

易于管理

较少服务器数量

当安装Scylla是，它将根据运行的硬件进行基准测试。记录有多少内核、IO吞吐量、网络带宽，之后Scylla根据这些参数与工作负载的变化自动调节任务等。大部分情况我们不需要配置这些参数，这样降低了使用的复杂性。

Apache Cassandra 兼容性

Scylla 与 Apache Cassandra：

Scylla从架构、使用、API来看 Scylla 就是 Cassandra，完全兼容Cassandra。

Scylla可以集成Spark、KairosDB、Presto、Elasticsearch、Apache Kafka等项目Scylla。

Cassandra应用只需要修改IP，就可以使用Scylla。

ScyllaDB 版本

ScyllaDB 提供三种版本。开源版、企业版、Cloud版。

企业版需要联系销售

Cloud版基于服务器类型与数量定价

3台 8C 1.9T 机器12W 授权10w

3台 64C 8*1.9T 机器120w 授权60w

数据模型

Scylla中的数据存储在按表组织的一组行中。

每行都有一个主键来标识它。数据通过此主键进行分区。可以根据主键检索数据。

Keyspace是数据模型的最高级别。它们通常包含许多表。

Table在键空间内定义。它们包含一组列和一个定义的主键。

Column定义表中的数据结构。每列都有一个定义的数据类型。

高可用性

要了解Scylla如何提供高可用性，我们首先需要了解一些基本术语。

Nodes 节点是Scylla中的存储单位。它由在计算机服务器上运行的Scylla数据库服务器软件组成。

Cluster 集群是Scylla用于存储数据的节点的集合。最小集群通常包含至少三个节点。

Consistency Level 一致性级别（CL）确定集群中的多少副本在被视为成功之前必须确认读取或写入操作。

Replication Factor 复制因子或RF等于要复制数据的节点数。

Scylla根据用户定义的复制策略复制数据。该策略将确定复制数据的位置。

Scylla在哈希环中运行节点。所有节点均相等，没有主，从或副本集。数据通常复制到多个节点。RF为1，表示集群中一行只有一个副本，并且如果该节点受损或发生故障，则无法恢复数据。RF为2表示集群中一行有两个副本。在大多数系统中，至少使用三个RF。数据总是自动复制。可能会对存储在任何复制节点上的数据进行读取或写入操作。

在上面的示例中，我们的客户端发送了一个将分区1写入节点V的请求；1的数据被复制到节点W，X和Z，因为我们的复制因子或RF为3。

架构

在大数据世界中，单个节点无法保存整个数据集，因此需要一个节点集群。Scylla集群是可视化为环的节点或Scylla实例的集合。令牌是一个范围内的值，用于标识节点和分区。分区密钥是分区的唯一标识符，并表示为从主密钥散列的令牌。

分区是数据的子集，存储在节点上并在节点之间复制。在物理层上，分区是存储在节点上的数据单元，并由分区键标识。分区键是查找组成分区的一组行的主要方法。集群中的一个节点，用于存储给定的分区，并在集群中的各个节点之间分配数据。分区程序或分区哈希函数使用分区键来确定数据在集群中给定节点上的存储位置。它通过为每个分区键计算一个令牌来实现。分区键的哈希输出确定了它在集群中的位置。