大数据简介

最新推荐文章于 2024-09-21 17:07:20 发布

浅巷酒香

最新推荐文章于 2024-09-21 17:07:20 发布

阅读量457

点赞数

分类专栏：大数据文章标签：大数据

本文链接：https://blog.csdn.net/u014420185/article/details/77427696

版权

0 篇文章 0 订阅

订阅专栏

大规模并行处理（Massively Parallel Processing，MPP）数据库系统
- 大规模并行处理（MPP）数据库系统的核心思想是把数据按照某一列或者某一组列的值，按照某种形式进行划分，以分别处理。
- 缺陷：需要在算法设计的时候就决定数据如何划分。这就不适合临时的数据查询需求。
内存数据库系统
- 内存数据库系统系统运行类似于 MPP 系统，不同之处在于，内存数据库系统的每个计算节点需要巨大容量的内存，并且大部分数据会被预先加载到内存中。
- 缺点：需要大量的硬件和软件，成本较高。
MapReduce系统
- 特征：
  - 使用商业级别的硬件（廉价的服务器）
  - 无需事先定义数据划分准则来把数据分配到各个计算节点。
  - 用户仅需定义两个独立的处理过程：Map 和 Reduce。
- 缺点：MapReduce 编程范型不适合迭代算法。
整体同步并行（Bulk Synchronous Parallel，BSP）系统

大多数的 RDBMS 使用者都要求数据库必须遵守 ACID（atomicity:原子性，consistency:一致性，isolation:隔离线，durability:持久性）准则。
ACID 的简化版本 CAP 理论
- Consistency（一致性）：在分布式系统中的所有数据备份，在同一时刻有同样的值。
- Availability（可用性）：在合理且明确的时间内，保证每个请求都能获得成功或失败的结果的响应。
- Partition tolerance（分区容忍性）：在集群中一部分节点故障后，集群整体仍可使用。
事实证明，任何分布式系统只能同时满足 CAP 理论的其中两个特性。