GFS/BigTable/App Engine
HDFS/HBase/
Dynamo/S3/SimpleDB/EC2
比较Google和Amazon各自的存储模型,是很有趣的事情,他们的这些工作是目前云计算圈子里技术灵感的源泉,也是几十年来分布式系统理论研究应用的一个集大成之作。
存储虚拟化
文件系统抽象
数据库系统抽象
分布式存储系统
分布式文件系统
分布式数据库系统
key-value存储是更抽象的接口,或者叫对象存储系统,对象OID索引到对象
比较BigTable/HBase/Dynamo???
问题的关键在于:
功能性要求
性能要求(high throughput, low latency).
非功能性要求(容错,伸缩性,存储系统暂不考虑信息安全性)
解决思路在于大规模集群技术。
replication cluster
load balance cluster
由replication自然引起consistency模型的问题,这是整个存储系统中最困难的一个地方。再加上concurrency control的考虑,整个问题的复杂度倍增,这是个组合问题。
replication * concurrency = consistency.
相比于传统数据库ACID的要求,云存储主要是加入了replication的因素。
进一步的考虑,需要对数据进行partition,或者说hash.一个大文件划分成多个数据块,一个大表划分成几个部分。系统需要维护这种映射关系。在google和hadoop架构下,是通过中心服务器来管理的,master server,这就导致系统单点问题。amazon则通过分布式dht来做,节点是虚拟的,所有虚拟节点构成ring。
[b]replication同步机制[/b]
GFS是同步模型
Dynamo是异步模型
同步模型的一致性易于做到些(考虑到容错,其实也不那么直接),异步模型必然要引出多版本的概念
[b]failure detector[/b]
[b]Google chubby闪亮登场[/b]
解决分布式系统中必须解决的一个全局状态问题。
SPOF问题
集群配置
[b]API和协议[/b]
NFS
Fuse
CIFS
key-value存储系统接口
SOAP
RESTful
云存储解决了数据存储的问题,如何在如此大量的数据里面,进行必要的分析,挖掘到有用的信息,就进入并行计算的领域,这方面Map/Reduce独领风骚。这个思想是受FP的启发而出现的。FP在并行计算领域有独特优势(?),现在许多FPL的社区慢慢的热闹起来,这是一个重要原因。
HDFS/HBase/
Dynamo/S3/SimpleDB/EC2
比较Google和Amazon各自的存储模型,是很有趣的事情,他们的这些工作是目前云计算圈子里技术灵感的源泉,也是几十年来分布式系统理论研究应用的一个集大成之作。
存储虚拟化
文件系统抽象
数据库系统抽象
分布式存储系统
分布式文件系统
分布式数据库系统
key-value存储是更抽象的接口,或者叫对象存储系统,对象OID索引到对象
比较BigTable/HBase/Dynamo???
问题的关键在于:
功能性要求
性能要求(high throughput, low latency).
非功能性要求(容错,伸缩性,存储系统暂不考虑信息安全性)
解决思路在于大规模集群技术。
replication cluster
load balance cluster
由replication自然引起consistency模型的问题,这是整个存储系统中最困难的一个地方。再加上concurrency control的考虑,整个问题的复杂度倍增,这是个组合问题。
replication * concurrency = consistency.
相比于传统数据库ACID的要求,云存储主要是加入了replication的因素。
进一步的考虑,需要对数据进行partition,或者说hash.一个大文件划分成多个数据块,一个大表划分成几个部分。系统需要维护这种映射关系。在google和hadoop架构下,是通过中心服务器来管理的,master server,这就导致系统单点问题。amazon则通过分布式dht来做,节点是虚拟的,所有虚拟节点构成ring。
[b]replication同步机制[/b]
GFS是同步模型
Dynamo是异步模型
同步模型的一致性易于做到些(考虑到容错,其实也不那么直接),异步模型必然要引出多版本的概念
[b]failure detector[/b]
[b]Google chubby闪亮登场[/b]
解决分布式系统中必须解决的一个全局状态问题。
SPOF问题
集群配置
[b]API和协议[/b]
NFS
Fuse
CIFS
key-value存储系统接口
SOAP
RESTful
云存储解决了数据存储的问题,如何在如此大量的数据里面,进行必要的分析,挖掘到有用的信息,就进入并行计算的领域,这方面Map/Reduce独领风骚。这个思想是受FP的启发而出现的。FP在并行计算领域有独特优势(?),现在许多FPL的社区慢慢的热闹起来,这是一个重要原因。