文件系统是支持大数据应用的基础。Google是有史以来唯一需要处理如此海量数据的大公司。对于Google而言,现有的方案已经难以满足其如此大的数据量的存储,为此Google提出了一种分布式的文件管理系统——GFS。
GFS与传统的分布式文件系统有很多相同的目标,比如,性能、可伸缩性、可靠性以及可用性。但是,GFS的成功之处在于其与传统文件系统的不同。
GFS的设计思路主要基于以下的假设:对于系统而言,组件失败是一种常态而不是异常。GFS是构建于大量廉价的服务器之上的可扩展的分布式文件系统,采用主从结构。
通过数据分块、追加更新等方式实现了海量数据的高效存储,所示给出了GFS体系结构。但是随着业务量的进一步变化,GFS逐渐无法适应需求。Google对GFS进行了设计,实现了Colosuss系统,该系统能够很好地解决GFS单点故障和海量小文件存储的问题。
除了Google的GFS,众多的企业和学者也从不同的方面对满足大数据存储需求的文件系统进行了详细的研究。微软开发的Cosmos支撑其搜索、广告业务。
HDFS、FastDFS、OpenAFS和CloudStore都是类似GFS的开源实现。类GFS的分布式文件系统主要针对大文件而设计,但是在图片存储等应用场景中,文件系统主要存储海量小文件,Facebook为此推出了专门针对海量小文件的文件系统Haystack,通过多个逻辑文件共享同一个物理文件,增加缓存层、部分元数据加载到内存等方式有效地解决了海量小文件存储的问题。
Lustre是一种大规模、安全可靠的,具备高可靠性的集群文件系统,由SUN公司开发和维护。该项目主要的目的就是开发下一代的集群文件系统,可以支持超过10 000个节点,数以拍字节的数量存储系统。
人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:
1.在学习大数据之前,需要具备什么基础
http://www.duozhishidai.com/article-12916-1.html
2.大数据工程师培训,需要学习的有哪些课程?
http://www.duozhishidai.com/article-15081-1.html
3.大数据的特点是什么,大数据与Hadoop有什么关系?
http://www.duozhishidai.com/article-13276-1.html