hdfs-->habse-->hive
hdfs是分布式文件系统,两个特点:切块+副本(128M,3副本:为了能存下大文件和防丢失)
缺点:强于存储,但是不适合查询
因此:hbase诞生
hbase:跟日常使用的oracle数据库一致,用该组件来弥补hdfs的查询缺陷,是列簇数据库,缺点:不支持常见SQL,比如show tables在hbase中是list
hbase是基于hdfs建立(hdfs是一堆目录,hbase是建立在hdfs目录中的目录)
因此:hive诞生
hive:一个客户端工具,提供SQL语句,用于实现整合hbase的查询能力+hive的SQL能力实现数据仓库的整合。