大数据存储系统学习笔记（一）

最新推荐文章于 2022-05-24 20:13:13 发布

程哥哥吖

最新推荐文章于 2022-05-24 20:13:13 发布

阅读量460

点赞数 2

分类专栏：大数据系统与大规模数据分析文章标签： big data 服务器 hadoop 分布式大数据

本文链接：https://blog.csdn.net/weixin_42200347/article/details/124931547

版权

24 篇文章 9 订阅

订阅专栏

设计目标：服务器出现故障，可以简单快速地恢复
NFS Server不保持任何状态，每个操作都是无状态的
如果NFS崩了，只用重启，什么额外操作都不用，因为每个操作无状态
NFSv2 对于 Cache Consistency 的解决方法
- 在文件关闭时，必须把缓存的已修改的文件数据，写回NFS Server
- 发送GETATTR请求，获得最新的文件属性；比较文件修改时间
缺点：1. 大量的GETATTR（即使文件只被一个client缓存） 2. 关闭文件时写回文件

设计目标：一个服务器支持尽可能多的客户端；解决NFS polling状态的问题
解决 polling 状态的问题：
- Client 获得一个文件时，在server上登记
- 当server发现文件修改时，向已登记的client发一个callback
- Client收到callback，则删除缓存的文件
优点：有效地避免了polling的代价，减轻了Server的负担
AFS vs NFSv2:
- AFS缓存整个文件,而NFS是以数据页为单位的，AFS open: 将把整个文件从Server读到Client，多次操作：就像本地文件一样，单次对一个大文件进行随机读/写：比较慢
- AFS缓存在本地硬盘中，而NFS的缓存是在内存中的，所以AFS可以缓存大文件

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

简化RDBMS的能力：不支持（完全的）SQL，不支持（完全的）ACID，支持非关系的数据模型

Dynamo 数据模型和操作：
- 最简单的<key, value>：key = primary key：唯一地确定这个记录，value：大小通常小于1MB
- 只有put和get操作
- 没有Transaction概念，仅支持单个<key,value>操作的一致性
Dynamo 系统结构：

在这里插入图片描述

多个nodes互连形成分布式系统
每个node上由local storage engine + dynamo软件层组成
一致性哈希(p2p 的关键技术)：https://blog.csdn.net/weixin_42200347/article/details/124572825
一致性哈希备份（三副本备份）：

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

给新node赋值,改变区间，拷贝数据,对Node 6与node 7有类似修改
Quorum机制：高效+读写一致性：多个副本可能存储同一个Key的不同的Value版本，怎么能够读到最新数据？
Quorum (N, W, R)：有N个副本，写：保证>=W个副本的写完成，读：读>=R个副本，选出其中最新版本，如果满足R+W>N，那么一定读到了最新的数据
R小，那么读的效率就高；W小，那么写的效率就高
Put操作并没有等待所有N个节点写完：1. 可以提高写效率 2. 可以避免访问出错/下线的节点，提高系统可用性
系统总会最终保证每个<key,value>的N个副本都写成功，都变得一致：1. 但并不保证能够在短时间内达到一致 2. 最终可能需要很长时间才能达到 这种“最终”达到的一致性就是eventual consistency

Dynamo 小结：
- 最简单的<key,value>模型，get/put操作
- 单节点上存储由外部存储系统实现
- 多节点间的数据分布：一致性哈希、Quorum (N, W, R)、Eventual consistency

在这里插入图片描述

在这里插入图片描述

内部存储如何找到 Tablet：
- 内部是三层的B+‐Tree，每个叶子节点是一个Tablet
- 内部节点是特殊的MetaData Tablet，MetaData Tablet 包含Tablet位置信息
单个Tablet内部的存储结构：
- B+‐Tree：每一次Insertion都导致一次随机写
- LSM‐Tree目标：减少随机写
LSM‐Tree vs. B+‐Tree：
- B+‐Tree：Insert/delete/update：随机写、Search：性能好、Scan：访问一组叶子节点
- LSM‐Tree：Insert/delete/update：顺序读写、Search：多次访问、Scan：归并多个层次

关注