一、Hbase简介
HBase(Hadoop Database)是一个开源的非关系型的分布式数据库,运行于HDFS文件系统之上,可以容错地存储海量稀疏的数据。HBase是一个高可靠、高性能、面向列、可伸缩、实时读写的分布式数据库,主要用来存储非结构化和半结构化的松散数据。
HBase的目标是处理非常庞大的表,可通过水平扩展的方式,利用廉价计算机集群处理由超过10亿行数据和数百万列元素组成的数据表。
划重点:
HBase是基于列存储的,主要用来存储非结构化和半结构化的松散数据,适合大数据的实时查询;
利用HDFS作为其文件存储系统;
利用MapReduce来处理 HBase中的海量数据;
利用Zookeeper作为其分布式协同服务;
1.HDFS
(1).HDFS简介
对外部客户机而言,HDFS就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件等。HDFS是Hadoop的核心子项目,是一个可以运行在普通硬件设备上的分布式文件系统,是分布式计算中数据存储和管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的。它所具有的高容错、高可靠性、高可扩展性、高吞吐率等特征为海量数据提供了不怕故障的存储,给超大数据集的应用处理带来了很多便利。
(2).HDFS架构
HDFS由四部分组成,HDFS Client、NameNode、DataNode 和 Secondary NameNode。HDFS是一个主/从(Mater/Slave)体系结构,HDFS集群拥有一个NameNode和一些DataNode。
NameNode:管理文件系统的元数据;DataNode:存储实际的数据;

HDFS Client:就是客户端
1、提供一些命令来管理、访问 HDFS,比如启动或者关闭HDFS。
2、与 DataNode 交互,读取或者写入数据;读取时,要与NameNode交互,获取文件的位置信息;写入HDFS的时候,Client将文件切分成 一个一个的Block,然后进行存储。
NameNode:即 Master
1、管理 HDFS 的名称空间。
2、管理数据块(Block)映射信息
3、配置副本策略
4、处理客户端读写请求。
DataNode:就是Slave;NameNode 下达命令,DataNode 执行实际的操作。

最低0.47元/天 解锁文章
1317

被折叠的 条评论
为什么被折叠?



