2020.01.22碎片梳理——关于大数据_hive 碎片整理-CSDN博客

本文链接：https://blog.csdn.net/qq_28301007/article/details/104071459

对几种大数据技术进行了一次小小的整理，常见的有：Hadoop、Hive、Spark、HBase。

Hadoop：一种文件系统，我觉得可以类比win（linux）下的NTFS、FAT等；

文件系统是操作系统上用于明确存储设备或分区上的文件的方法和数据结构，也就是在存储设备上组织文件的方法。NTFS等相当于是在win（linux）下对操作系统中的数据进行底层组织，Hadoop则是类似的但抽象层次更高的一种文件系统，适合处理块状数据。
HDFS提供存储、MapReduce提供计算引擎（包括两个部分JobTrackers、TaskTrackers）

Hive：是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。

HBase：HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

Spark：Spark对标的是Hadoop中的MapReduce，两者皆为分布式计算框架，都必须在分布式文件系统之上运行。Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载，因此在性能上相比于MapReduce具有一定的优越性。Hadoop则是一种基础设施，提供底层的存储机制（也可以说是数据结构）。

与大数据相关的，也经常提到云计算。个人觉得云计算就是一种商业宣传语，因为只要是部署在服务器上的都可以称之为云~现阶段云计算已经不是一种单纯的技术概念，是一种囊括了众多技术概念（分布式计算、效用计算、负载均衡、并行计算、网络存储、冷热备份、虚拟化）的商业性术语。
一般的，分为三层架构：