1.生产中常使用的SQL on hadoop 框架
主流sql on hadoop有Hive、Spark SQL、Phonix
扩展1:hadoop 由hdfs,yarn,mr组成,守护进程nn与rm容易出现单点故障,而生产中要求是任何一个流程都要考虑到单点故障,任何一个组件环节都必须是HA(高可用),生产中nn,rm都至少两个,实时热备。
2.Hive简介
Hive是Apache基金会的一个开源顶级的项目,官网:hive.apache.org。
Hive是数据仓库,由Facebook贡献,使用SQL进行大数据的处理和分析。
Hive可管理的分布式存储:HDFS/S3等
Hive可底层执行引擎:MR(Apache2.0过时)、spark 、Tez
Hive运行在:yarn等
扩展1:如果一个框架最终不能落地SQL,那么这个框架就有待选择。
扩展2:hvie源码位置:github.com/apache/hive ,任何一个人都可成为源码的con