数据的结构特征
非结构化数据:包括所有格式的办公文档、文本、图片、图像、音频、视频信息等。
结构化数据:一般会存储在关系型数据库中,可用二位关系的表结构来对数据进行描述,数据的模式需要预先进行定义。
半结构化数据:介于结构化数据和半结构化数据直接,HTML文档就属于半结构化数据。它一般是自描述的,与结构化数据的最大区别之处在于,半结构化的数据模式和内容混在一起,没有明显的界限和区分。
根据分布式系统面临的各种需求,目前主要有四种分布式存储系统:分布式文件系统、分布式键值系统、分布式表格和分布式数据库
基于数据结构特征的存储形式
数据的结构特征决定数据的存储形式;
1、文件存储;
2、nosql;
3、sql;
分布式文件系统
互联网应用需要存储大量的图片、文字、照片和视频等各种非结构化的数据对象,这类数据以对象的形式进行组织,对象之间没有关联关系,这样的数据一般我们称为Blob数据。
分布式文件系统用于存储Blob数据对象,典型的系统有Facebook Haystack以及Taobao File System.另外,分布式文件系统也常作为分布式表格系统以及分布式数据库系统的底层存储。
总体上看,分布式文件系统存储三种数据:Blob对象、定长块以及大文件。在系统的实现层面,分布式文件系统内部按照数据块(chunk)来组织数据,每个数据块的大小相同,每个数据可以包含多个Blob