数据库和数据仓库

最新推荐文章于 2024-08-15 20:39:13 发布

一棵大树Atree

最新推荐文章于 2024-08-15 20:39:13 发布

阅读量1.9k

点赞数

分类专栏： Hadoop生态系统

本文链接：https://blog.csdn.net/FengqiangDu/article/details/91462199

版权

Hadoop生态系统专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1、RDBMS（关系型）

在小型和大型的组织机构中，大多数主要的运营信息主要是存储在关系型数据库管理系统（RDBMS）中。知道什么数据集被存储了以及它们被存储在何处，是大数据实施中的关键构件块。PostgreSQL是最广泛使用的开源数据库，其真正的能力在于它的扩展性。用户和数据库管理员可以添加新的功能，而不影响数据库的基本操作和可靠性。

2、非关系型数据库（“不仅仅是SQL”Not Only SQL，NoSQL）

非关系型数据库无须依赖于RDBMS特有的表/键模型。一些最流行的非关系型数据库的风格和开源实现如下：键值数据库；文档数据库；列式数据库；图数据库；空间数据库。下面主要介绍两个常用的数据库：MongoDB和HBase。

2.1、文档数据库

两种文档数据库：一种通常被描述为一个完整的文档样式的内容库（例如，文字文件和完整的网页），另一种是用于存储文档组件的数据库，将其作为静态实体或文档一部分的动态组件来永久存储。文档数据库正在成为大数据所采用的黄金标准。

MongoDB是“hu（mongo）us database”系统的项目名称，它是由包含集合的数据库组成，集合是由文档组成的，每个文档由字段组成。正如关系型数据库中的那样，我们可以索引一个集合，这样会增加数据查找的性能。

MongoDB返回一个叫做光标的东西，它作为一个数据的指针，提供了计数或分类数据的选项，而不需要解压它。MongoDB生来支持BSON，JSON（注：JSON是一种数据交换格式，基于JavaScript编程语言的一个子集，本质上是文本。）文件的二进制实现。

MongoDB也是一个包含以下要素的生态系统：