Hive0.13.0简介

最新推荐文章于 2020-02-10 21:29:50 发布

雨钓Moowei

最新推荐文章于 2020-02-10 21:29:50 发布

阅读量8.2k

点赞数

分类专栏： Hadoop 文章标签： hive metadata hdfs

本文链接：https://blog.csdn.net/u012802702/article/details/51707230

版权

本文介绍了Hive作为Hadoop上的数据仓库基础构架，详细阐述了Hive与数据库的区别，用户接口，以及元数据库（metaStore）的概念。讨论了Hive数据存储在HDFS中的位置，并提及全表扫描的查询方式。此外，还涵盖了Hive的建表（包括内部表、外部表）以及分区表的创建。

摘要由CSDN通过智能技术生成

好久不更新博客了，近几个月经过反复修改整理已经积攒了一堆笔记，恰好趁此更新博客的机会再将所学知识进行一个系统的回顾和梳理。

一、Hive简介

1.1、Hive是建立在Hadoop上的数据仓库基础构架。

他提供了一系列的工具，可以用来进行数据提取和转化加载（ETL），是部署在hadoop集群上的，是hadoop集群上的一个框架，这是一种大规模的数据机制，Hive定义了简单的类SQL查询语句，称为HQL，他允许熟悉Sql的用户查询数据，同时，这个语言也允许熟悉MapperReducer开发者开发自定义的Mapper和Reduce来处理内置的Mapper和Reducer无法完成的复杂的分析工作。支持SwiftS

1.2、数据仓库与数据库的区别：

1、数据库可以实时的进行增删该查，

2、数据仓库不仅仅用于存放大量数据，同时支持对数据进行分析计算，但是不支持实时的更新删除，如发现有一条数据错误，不能直接修改，只能先将数据下载下来，在本地进行修改，之后再上传上去。同时不能删除某条数据，除非整个文件中只有一条数据，将整个文件删除。即数据仓库用于保存和分析数据，其中的数据是一次写入多次读取。

Hive是一个Sql解析引擎，可以解析SQL，将SQl解析成MapperReduce任务在Hadoop上执行，

Hive的表其实就是HDFS的文件夹，表里的数据对应于文件夹中的文件，按照表名把文件夹分开，如果是分区表，则分区值是子文件夹，可以直接在MapperReducer任务中使用这些数据。

1.3、用户接口：

CLI；命令行接口，即shell， 用的最多是使用脚本。因为JDBC存在问题，对并发和连接池支持不好。

JDBC/ODBC：是Hive的Java，与使用传统数据库JDBC的方式类似，支持多语言，其中有一个Thrift Server支持多语言，如使用c++写的会通过Thrift Server将其转换为SQL去操作Hive。

WebUI：浏览器，只能查看。

1.4、元数据库（metaStore）：

Hive将原数据存储在元 数据库中（metaStore）,元数据库保存数据的一些表、数据分区的一些简单的描述信息（如有哪些表，表中有哪些字段，有哪些分区等等），而海量的计算数据保存在HDFS中。

Hive的Driver包含解释器、编译器、优化器完成HQL查询语句从词法分析，语法分析，编译，优化以及查询计划（plan）的生成，生成的查询计划存储在Hdfs中，并在随后由MapperReducer进行调用。

Hive的数据存储在HDFS中默认将表存放到HDFS的：hdfs://ns1/user/hive/warehouse/目录下(ns1指的是NameService)，大部分的查询会产生对应的MapperReducer，使用MapperReducer完成，但是包含* 的查询，例如SELECT * FROME table（即进行全表扫描）不会生成MapperReducer，直接将HDFS中的数据读取出来即可。