大数据技术①|大数据第15章|HBase数据库与Cassandra数据库|18:00~18:15

目录

15章习题

15.1 HBase 数据库有何基本功能? 

15.2 Big Table 如何对稀疏数据进行存储的? 

15.3 面向行的数据存储具有何特点?面向列的数据存储具有何特点? 

15.4 HDFS 与 HBase 有何区别? 

15.5 HBase 集群主要由哪几类节点构成?它们在集群中起到什么作用? 

15.6 HBase 中的数据模型由那些的逻辑组件组成?

15.7 Cassandra 数据库有何特点? 

15.8 Cassandra 的关键组件主要有哪些?试简述这些组件的功能。 


15章习题 HBase数据库与Cassandra数据库

15.1 HBase 数据库有何基本功能? 

1. HBase 是一个面向列的数据库,由开源的 Google Big Table 存储架构实现。 它可以管理结构化和半结构化数据,并具有一些内置功能,如可扩展性、版本管 理、压缩和垃圾收集。由于它适应预写式日志记录和分布式配置,因此可以提供容错和快速从单个服务器故障中恢复。建立在Hadoop/HDFS 之上的 HBase 可以使用 Hadoop 的 MapReduce 功能来进行数据存储和处理。

2. HBase 是一个开源、非关系的分布式数据库,基于 Google 的 Big Table 模型, 用 Java 编写。在 HDFS(Hadoop 分布式文件系统)之上运行,为 Hadoop 提供类似 Big Table 的功能,提供了一种容错的方式来存储大量的稀疏数据。

3. HBase 是为低时延操作而构建的系统。它提供从数十亿的记录中访问单个行的功能。通过 shell 命令、Java 编写的客户端、REST、Avro 或 Thrift 访问数据。

15.2 Big Table 如何对稀疏数据进行存储的? 

用户将数据存储在标签表中。数据行含有一个可排列的键和一个任意数目的列,映射是一个抽象数学类型,由键集合和值集合组成,其中每个键关联于一个值。

15.3 面向行的数据存储具有何特点?面向列的数据存储具有何特点? 

面向列:它可以管理结构化和半结构化数据,并具有一些内置功能,如可扩展性、版本管理、压缩和垃圾收集。由于它适应预写式日志记录和分布式配置,因此可以提供容错和快速从单个服务器故障中恢复。

面向行:是一个稀疏的、分布式的、持久的多维有序映射。该映射由行键、 列键和时间戳进行索引;映射中的每个值是未解释的字节数组。

15.4 HDFS 与 HBase 有何区别? 

HDFS 适合于高时延的批处理操作,其数据主要通过 Map Reduce 访问,旨在进行批处理,因此不具有随机读/写的概念。 

HBase 是为低时延操作而构建的系统。它提供从数十亿的记录中访问单个行的功能。通过 shell 命令、Java 编写的客户端、REST、Avro 或 Thrift 访问数据。

15.5 HBase 集群主要由哪几类节点构成?它们在集群中起到什么作用? 

HBase 集 群 有 一 个 主 节 点 (称为HMaster ) 和 多 个 区 域 服 务 器 ( 称为HRegionServer)。每个区域服务器包含多个区域(称为 HRegions)。 

HBase 中的 HMaster 主要负责: 执行管理任务、管理和监视集群,分配区域到区域服务器、控制负载均衡与故障转移。 

HRegionServer 执行下面的任务: 托管与管理区域、自动分割区域、处理读/写请求、与客户直接通信。

15.6 HBase 中的数据模型由那些的逻辑组件组成?

HBase 中的数据模型由不同的逻辑组件组成,如表、行、列族、列、单元格和版本。 

15.7 Cassandra 数据库有何特点? 

1. 提供了可扩展性、容错性和一致性;

2. 面向列的数据量;

3. 其分布式设计基于 Amazon 的 Dynamo 及其 Google 的 BigTable 上的数据模型; 

4. 建立在 Facebook 之上,与关系数据库管理系统有着很大的不同。 

15.8 Cassandra 的关键组件主要有哪些?试简述这些组件的功能。 

1. 节点(Node):数据存储的地方。 

2. 数据中心(Data center):相关节点的集合。 

3. 集群(Cluster):集群是包含一个或多个数据中心的组件。 

4. 提交日志(Commit log):提交日志是 Cassandra 中的崩溃恢复机制。每个写入操作将被写入提交日志。 

5. 内存表(Mem-table):内存表是内存驻留的数据结构。提交日志后,数据将被写入到内存表中。有些时候,对于单列族,将有多个内存表。 

6. SSTable:当内容达到阈值时,从内存表中清除数据的磁盘文件。 

7. Bloom 过滤器(Bloom filter):这不过是快速的、不确定的算法,用于测试一个元素是否是一个集合的成员。这是一种特殊的缓存。Bloom 过滤器在每个查询后被访问。


  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值