Cassandra和HBase对比

最新推荐文章于 2024-11-28 12:05:07 发布

Jeremy_Lee123

最新推荐文章于 2024-11-28 12:05:07 发布

阅读量4.1k

点赞数 2

分类专栏： Cassandra HBase 文章标签： cassandra HBase

本文链接：https://blog.csdn.net/lixinkuan328/article/details/102492063

版权

HBase 同时被 2 个专栏收录

17 篇文章

订阅专栏

Cassandra

5 篇文章

订阅专栏

本文对比了HBase、Cassandra和MongoDB三种NoSQL数据库的主要特点、适用场景及限制。HBase适用于读取优化和范围扫描，Cassandra适用于高可用性和快速随机读写，MongoDB则适合文档管理和实时分析。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Cassandra和HBase对比：

	Cassandra	HBase
一致性	Quorum NRW策略通过Gossip协议同步Merkle Tree，维护集群节点间的数据一致性	单节点，无复制，强一致性
可用性	1，基于Consistent Hash相邻节点复制数据，数据存在于多个节点，无单点故障。 2，某节点宕机，hash到该节点的新数据自动路由到下一节点做 hinted handoff，源节点恢复后，推送回源节点。 3，通过Gossip协议维护集群所有节点的健康状态，并发送同步请求，维护数据一致性。 4，SSTable，纯文件，单机可靠性一般。	1，存在单点故障，Region Server宕机后，短时间内该server维护的region无法访问，等待failover生效。 2，通过Master维护各Region Server健康状况和Region分布。 3，多个Master，Master宕机有zookeeper的paxos投票机制选取下一任Master。Master就算全宕机，也不影响Region读写。Master仅充当一个自动运维角色。 4，HDFS为分布式存储引擎，一备三，高可靠，0数据丢失。 5，HDFS的namenode是一个SPOF。
伸缩性	1，Consistent Hash，快速定位数据所在节点。 2，扩容需在Hash Ring上多个节点间调整数据分布。	1，通过Zookeeper定位目标Region Server，最后定位Region。 2，Region Server扩容，通过将自身发布到Master，Master均匀分布。
负载均衡	请求Zookeeper取得整个集群地址，然后根据Consistent Hash选择合适的节点。client会缓存集群地址。	请求Zookeeper取读写数据路由表定位Region Server，Master会修改这个路由表。Client自身也会缓存一部分路由信息。如果Key的第一部分是时间或者序列数，所有新的Key都会被插入同一个区域,一直到此区域被塞满。此处存在热点问题。
数据差异比较算法	Merkle Tree , Bloom Filter	Bloom Filter
锁与事务	Client Timestap（Dynamo使用vector lock）	Optimistic Concurrency Control
读写性能	数据读写定位非常快。	数据读写定位可能要通过最多6次的网络RPC，性能较低。
可维护性	架构无中心化，维护成本低。新增keyspace需要重启整个集群。	组件过多，架构复杂，维护成本较高。删除表非常方便。
列排序	支持	不支持
map/reduce	支持不是很好	源生支持
访问接口	Thrift	多种，包括Thrift
点评	1，弱一致性，数据可能丢失。AP 2，可用性高。 3，扩容方便。 4，如果不需要map/reduce的话，维护相当简单。	1，强一致性，0数据丢失。CP 2，可用性低。 3，扩容方便。 4，组件过多，架构复杂，维护成本较高。

一、HBase：宽列式数据库，基于Apache Hadoop和BigTable的概念。

Apache HBase是一种NoSQL键/值存储系统，它在Hadoop分布式文件系统（HDFS）上运行。不像Hive，HBase操作在数据库上，而不是MapReduce作业上实时运行。HBase分成表，表又细分成列族（column family）。列族必须在模式中加以声明，它将某一组列（列不需要模式定义）分为小组。比如说，“message”列族可能包括以下这几列：“to”、“from”、“date”、“subject”和“body”。HBase中的每个键/值对被定义为一个单元（cell），每个键含有行键、列族和时间戳。HBase中的行是一组键/值映射，由行键来识别。HBase可以使用Hadoop的基础设施，并使用现成服务器实现横向扩展。

HBase的工作方式是，将数据存储为键/值。它支持四种主要的操作：添加或更新行的put，检索一组单元的scan，返回某个指定行的单元的get，以及从表上删除行、列或列版本的delete。拥有版本控制功能，那样可以获取数据的之前值（历史记录可以通过HBase压缩时不时删除，以释放空间）。虽然HBase包括表，但只有表和列族才需要模式，列不需要模式，它还包括增量/计数器功能。

HBase查询用一种需要学习的自定义语言来编写。可以通过Apache Phoenix，获得类似SQL的功能，不过其代价是需要维护模式。此外，HBase并不完全符合ACID，不过它确实支持某些属性。最后但并非最不重要的是，为了运行HBase，就需要ZooKeeper――这是面向分布式协调的服务器，比如配置、维护和命名。

HBase最适合大数据的实时查询。Facebook将它用于消息传递和实时分析。Facebook甚至将它用于计数Facebook点赞。

Hbase有集中式架构， Master服务器负责监控集群中的所有RegionServer（负责服务和管理区域）实例，它也是查看所有元数据变化的界面。它提供了CAP原理中的CP（一致性和可用性）。

HBase针对读取操作进行了优化，得到单次写入master的支持，支持因而获得的严格一致性模型，以及使用支持行扫描的顺序分区（Ordered Partitioning）。HBase很适合执行基于范围的扫描。

线性可扩展性，支持大表和范围扫描－－由于顺序分区，HBase很容易横向扩展，同时仍支持行键范围扫描。

辅助索引－－Hbase并不直接支持辅助索引，但触发器的一个使用场合是，“put”方面的触发器会自动确保辅助索引是最新版本，因而并不给应用程序（客户端）添加负担。

简单聚合－－Hbase Co Processors支持HBase中的即开即用的简单聚合。SUM、MIN、MAX、AVG和STD。如果定义java类，就可以构建其他聚合，从而执行聚合操作。

实际应用：Facebook Messanger

二、Cassandra: 宽列式数据库，基于BigTable和DynamoDB的概念

Apache Cassandra是一种主要的NoSQL分布式数据库管理系统，它支撑着如今的许多现代商务应用系统，它提供了持续可用性、高扩展性和高性能、强安全性和操作简单性，同时降低了总体拥有成本。

Cassandra拥有分散式架构。任何节点都能执行任何操作。它提供了CAP原理中的AP（可用性和分区可容忍性）。

Cassandra拥有出色的单行读取性能，只要最终的一致性语义足以满足使用场合的需要。Cassandra quorum读取是严格一致性所需要的，它自然不如Hbase读取来得快。Cassandra不支持基于范围的行扫描，这在某些使用场合可能具有局限性。Cassandra很适合支持单行查询，或者基于列值索引选择多行。

如果数据存储在Cassandra中的列里面以支持范围扫描，Cassandra中行大小的实际限制是10MB。大于这个数的行会在压缩开销和时间方面引起问题。

Cassandra支持列族辅助索引，其中列的名称已知（但不支持动态列）。

Cassandra中的聚合并不受到Cassandra节点的支持――客户端必须提供聚合机制。聚合需求横跨多个行时，随机分区（Random Partitioning）使得聚合对客户端来说很难。建议使用Storm或Hadoop用于聚合。

实际应用：Twitter