HDFS的副本机制
HDFS的副本机制,HDFS上的每一份文件,默认是存储3个副本。一般来说,这三个副本会存放在多个地方,比如说同一个机房的不同机架,不同机房的机架,避免意外发生遭到团灭。在写入数据时,如果写入的DataNode挂掉,则整个任务失败;读取数据时,如果读取的DataNode挂掉,则通过Yarn寻找另一台网络拓扑距离最近的机器上的备份数据进行断点续传。
Apache Hive是一款分布式SQL计算的工具,其主要功能是:将SQL语句翻译成MapReduce程序运行。基于Hive为用户提供了分布式SQL计算能力,写的是SQL,运行的是MapReduce。
Apache Hive的基础理解:
Hive的优点:
1.操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手)。
2.底层执行MapReduce,可以完成分布式海量数据的SQl处理
Apache Hive 的基础架构: