HDFS
hdfs简介
- hadoop中高效数据处理基础是它的数据存储模型
- hdfs是hadoop分布式文件系统的实现
- 它是参考谷歌文件系统设计
- hdfs为处理大批大量数据而设计
- 通过网络提供给多个分部的客户端易用的数据访问方式
hdfs优势
- 相比于nfs之类的分布式文件系统,hdfs可以存储大量数据并支持更大的文件
- hdfs是为在大量机器和文件系统之间传输数据而设计的
- hdfs具有可靠的数据存储能力,并通过数据副本的方式处理集群中的某台机器宕机或数据丢失的情况
- hdfs于hadoop的mapreduce模型易于集成,因此,允许数据从本地读取和处理
hdfs的不足
- hdfs并非一个通用的应用程序,而是局限于某些特定的场景
- hdfs优化了高速流数据读取性能,代价则是随机读取性能上的削弱
- 访问hdfs文件最好采取顺序读取的方式
- hdfs只支持在文件上做少数的操作,但不包括任何更新的操作
- hdfs不提供数据的本地缓存机制
HBase
HBase是一个分布式的,本地化的,面向列的,多维度的存储系统,在设计上具备高性能和高可用性。
* hbase是goole的bigtable架构的开源实现
* 与传统的关系型数据库管理系统类似,hbase中也是以表的形式组织数据
* hbase支持非常松散的结构定义,但不支持任何表连接joins,查询数据或sql操作
* hbase主要在大稀疏表上做crud操作
* 大多是hbse