hive(简介)
hive使用sql来完成大数据统计分析的工具
hive是Facebook公司开源的工具,用来解决海量结构化日志的统计问题,是构建在hadoop之上的数据仓库。
HDFS:hive的数据是存在HDFS(distributed storge),元数据(metadata)存在对应底层关系模型数据库,一般是mysql
MR(计算引擎):hive的作业(SQL)是通过hive的框架翻译成MR作业。速度很慢。
这里的引擎也可以是Tez,Spark,不管底层用的是什么引擎,对于用户来说是不感知的,同样的SQL,只需要通过参数切换,就可以实现。
Yarn:hive的作业是提交到yarn上运行的。
Hadoop开发可以使用单机,但是生产上一定是分布式
hive其实是一个客户端,没有集群的概念,提交作业到集群的Yarn上去运行(没有感情的提交机器)
SQL==>Hive==>MR==>Yarn
生产环境上,哪台机器需要提交hive,就在哪台机器配置hive,不同的机器上的hive是相互独立的。
hive的职责:讲SQL翻译成底层对应的执行引擎作业。
distributed storge(分布式存储):HDFS,AWS S3,各种云,OOS,COS
这些系统,hive都可以对接,只要有对应的jar包。本地的文件系统(file开头)也