Cassandra，NoSQL中的兰博基尼

最新推荐文章于 2024-07-07 13:00:43 发布

瑜登java进阶

最新推荐文章于 2024-07-07 13:00:43 发布

阅读量361

点赞数

分类专栏：存储系统文章标签： nosql 数据库 java Cassandra

本文链接：https://blog.csdn.net/frankenjoy123/article/details/129270788

版权

存储系统专栏收录该内容

1 篇文章 0 订阅

订阅专栏

首先，给大家送个福利！最近整理了自己的工作资料，出一份面试资料《Java面试BATJ通关手册》，覆盖了Java核心技术、JVM、Java并发、SSM、微服务、数据库、数据结构等等。

领取方法：

Java面试BATJ通关手册

什么是Cassandra

Cassandra是一个分布式、高可用性、可伸缩性的NoSQL数据库系统。它最初由Facebook开发，后来捐赠给了Apache基金会，并成为Apache顶级项目之一。

Cassandra的特点之一是其分布式架构，它可以在多个节点之间分布数据，提供水平可扩展性。Cassandra的数据模型也是非常灵活的，支持列式存储和键值对存储，可以轻松应对不同的数据类型和应用需求。Cassandra还支持跨数据中心的数据复制，提供了高可用性和灾备恢复的能力。

Cassandra的读写性能非常优秀，可以处理海量数据的读写请求。它使用了一致性哈希算法来分配数据，并使用了分布式节点之间的协调来保证数据的一致性。Cassandra还提供了多种一致性级别来平衡数据一致性和读写性能之间的权衡。

Cassandra适用于多种场景，尤其适合需要大规模存储和高并发读写的应用，如社交网络、日志分析、物联网、电子商务等。Cassandra已经被广泛应用于许多知名的公司和产品中，如Netflix、eBay、Twitter、Apple等。

Cassandra的数据模型

Cassandra的数据模型是基于列族（Column Family）的，可以看做是键值对的集合，其中每个键都映射到一个或多个列。Cassandra的数据模型非常灵活，支持多种不同的数据类型和存储格式。

在Cassandra中，每个列族都有一个名称和一个集合，其中包含了多个行（Row）。每行由一个主键（Primary Key）标识，主键由一个或多个列组成。每个行都可以有多个列，每个列由一个名称、一个值和一个时间戳组成。Cassandra还支持在列族中定义超列，可以将多个列组织成一个逻辑单元。

与关系型数据库不同，Cassandra的数据模型并不要求每个行具有相同的列。在同一个列族中，不同的行可以有不同的列，这种灵活性使得Cassandra能够处理各种不同类型和格式的数据。

Cassandra的列族也支持各种不同的数据类型，包括字符串、整数、浮点数、时间戳、UUID等。此外，Cassandra还支持二进制数据和自定义数据类型的存储。

总之，Cassandra的数据模型非常灵活和可扩展，能够满足不同类型和格式的数据存储需求。通过灵活的主键和列族设计，Cassandra还能够提供快速和高效的数据查询和分析能力。

Cassandra的一致性模型

Cassandra是一个分布式数据库，需要解决一致性和可用性之间的权衡。Cassandra采用了基于Quorum的一致性模型，通过配置读写操作的一致性级别来实现数据的一致性和可用性。

在Cassandra中，每个数据副本都有一个副本编号（Replica Number），对于一个数据操作，需要至少达到Quorum（Q）个副本的一致性才能成功完成。Quorum的大小由读写操作的一致性级别（Consistency Level）来控制，一般情况下，读操作和写操作的一致性级别可以分别配置。例如，读操作的一致性级别设置为LOCAL_QUORUM，则需要在本地数据中心中至少达到Q个副本的一致性；写操作的一致性级别设置为QUORUM，则需要在所有数据副本中至少达到Q个副本的一致性。

Cassandra的一致性模型基于分区（Partition）和副本（Replica）的概念，每个数据副本都被分配到一个分区中，并负责存储该分区内的所有数据。当一个读写请求到达集群时，Cassandra会将请求路由到负责该分区的副本上，如果达到了一致性级别，操作就可以成功执行。如果无法达到一致性级别，Cassandra会返回一个错误，告诉客户端操作失败。

Cassandra的一致性模型还提供了多种一致性级别的选择，可以根据具体的应用场景和需求来配置不同的一致性级别。例如，如果应用要求数据一致性非常高，可以设置读写操作的一致性级别为ALL，这样可以保证数据在所有副本上都被更新；如果应用对数据一致性要求不是很高，可以设置一致性级别为ONE或TWO，这样可以降低读写操作的延迟，提高系统的吞吐量。

Cassandra的节点类型

在Cassandra中，每个节点都有不同的角色和功能，可以分为以下几种节点类型：

1、 Seed节点（Seed Node）：Seed节点是Cassandra集群中的初始节点，用于引导新节点的加入。Seed节点在集群启动时用于发现其它节点，并将这些节点的信息广播到集群中的其它节点。Seed节点不需要存储数据，只需要负责引导新节点的加入和集群状态的维护。 2、 Coordinator节点（Coordinator Node）：Coordinator节点是负责接收和处理客户端请求的节点。当客户端请求到达集群时，Coordinator节点会负责协调和路由请求，将请求发送到正确的节点上。Coordinator节点可以是任意节点，通常选择与客户端距离最近或负载最轻的节点作为Coordinator节点。 3、数据节点（Data Node）：数据节点是负责存储数据的节点，也是处理客户端请求的节点。每个数据节点都存储了集群中一部分的数据，并负责处理读写请求。数据节点可以配置多个数据副本，用于实现数据的备份和容错。 4、 Bootstrapping节点（Bootstrapping Node）：Bootstrapping节点是新加入Cassandra集群的节点。当一个新节点加入集群时，它需要从其它节点中获取数据，并加入到集群的数据拓扑中。Bootstrapping节点会自动从其它节点中获取数据，并通过Anti-Entropy机制来保证数据的一致性。 5、调节节点（Adjustment Node）：调节节点是Cassandra中用于调节集群状态和性能的节点。它可以根据集群状态和负载情况来动态地调整节点的数据副本数、负载均衡策略和数据分区等参数，以达到更好的性能和容错能力。

Cassandra的读写过程

Cassandra是一个分布式数据库系统，它的读写过程与传统的关系型数据库系统有所不同。在Cassandra中，读写操作涉及到多个节点和多个副本之间的协作，需要经历多个阶段才能完成。下面是Cassandra的读写过程的简要描述：

写操作：

1、客户端向任意一个节点发出写请求； 2、节点接收到写请求后，首先将数据写入本地commit log（写日志）和memtable（内存表）中； 3、节点将数据异步地写入其他副本中，如果其他副本写入失败，会重试，直到成功为止； 4、节点向客户端发送写成功的响应。

读操作：

1、客户端向任意一个节点发出读请求； 2、节点接收到读请求后，首先判断是否能够响应，如果不能响应，会将请求转发到负责该数据副本的节点； 3、节点检查本地数据是否存在，如果存在则直接返回，否则会向其他副本请求数据； 4、如果读取数据的一致性级别达到要求，节点会将数据返回给客户端，否则会返回错误信息。

需要注意的是，Cassandra中的读写操作都是异步的，并且是基于节点之间的协作完成的，因此在进行读写操作时需要考虑到数据的一致性和可用性。在写操作中，需要等待所有副本都成功写入后才能返回成功响应，这会带来一定的延迟；而在读操作中，如果数据在所有副本中都不一致，则可能会返回错误信息。因此，需要根据具体的业务需求和应用场景来选择合适的一致性级别和读写操作策略。

最后，给大家送个福利！最近整理了自己的工作资料，出一份面试资料《Java面试BATJ通关手册》，覆盖了Java核心技术、JVM、Java并发、SSM、微服务、数据库、数据结构等等。

领取方法：

Java面试BATJ通关手册