Hive0.13.0简介

本文介绍了Hive作为Hadoop上的数据仓库基础构架,详细阐述了Hive与数据库的区别,用户接口,以及元数据库(metaStore)的概念。讨论了Hive数据存储在HDFS中的位置,并提及全表扫描的查询方式。此外,还涵盖了Hive的建表(包括内部表、外部表)以及分区表的创建。
摘要由CSDN通过智能技术生成

好久不更新博客了,近几个月经过反复修改整理已经积攒了一堆笔记,恰好趁此更新博客的机会再将所学知识进行一个系统的回顾和梳理奋斗

一、Hive简介

1.1、Hive是建立在Hadoop上的数据仓库基础构架。

他提供了一系列的工具,可以用来进行数据提取和转化加载(ETL),是部署在hadoop集群上的,是hadoop集群上的一个框架,这是一种大规模的数据机制,Hive定义了简单的类SQL查询语句,称为HQL,他允许熟悉Sql的用户查询数据,同时,这个语言也允许熟悉MapperReducer开发者开发自定义的Mapper和Reduce来处理内置的Mapper和Reducer无法完成的复杂的分析工作。支持SwiftS

1.2、数据仓库与数据库的区别:

1、数据库可以实时的进行增删该查,
2、数据仓库不仅仅用于存放大量数据,同时支持对数据进行分析计算,但是不支持实时的更新删除,如发现有一条数据错误,不能直接修改,只能先将数据下载下来,在本地进行修改,之后再上传上去。同时不能删除某条数据,除非整个文件中只有一条数据,将整个文件删除。即数据仓库用于保存和分析数据,其中的数据是一次写入多次读取。

Hive是一个Sql解析引擎,可以解析SQL,将SQl解析成MapperReduce任务在Hadoop上执行,
Hive的表其实就是HDFS的文件夹,表里的数据对应于文件夹中的文件,按照表名把文件夹分开,如果是分区表,则分区值是子文件夹,可以直接在MapperReducer任务中使用这些数据。

1.3、用户接口:

CLI;命令行接口,即shell, 用的最多是使用脚本。因为JDBC存在问题,对并发和连接池支持不好。
JDBC/ODBC:是Hive的Java,与使用传统数据库JDBC的方式类似,支持多语言,其中有一个Thrift Server支持多语言,如使用c++写的会通过Thrift Server将其转换为SQL去操作Hive。
WebUI:浏览器,只能查看。

1.4、元数据库 (metaStore) :

Hive将原数据存储在元 数据库中(metaStore),元数据库保存数据的一些表、数据分区的一些简单的描述信息(如有哪些表,表中有哪些字段,有哪些分区等等),而海量的计算数据保存在HDFS中。

Hive的Driver包含解释器、编译器、优化器完成HQL查询语句从词法分析,语法分析,编译,优化以及查询计划(plan)的生成,生成的查询计划存储在Hdfs中,并在随后由MapperReducer进行调用。

Hive的数据存储在HDFS中默认将表存放到HDFS的:hdfs://ns1/user/hive/warehouse/目录下(ns1指的是NameService),大部分的查询会产生对应的MapperReducer,使用MapperReducer完成,但是包含* 的查询,例如SELECT * FROME table(即进行全表扫描) 不会生成MapperReducer,直接将HDFS中的数据读取出来即可。

1.5、元数据库问题:

当我创建表时,会在MateStore中保存表的元数据信息,同时在HDFS中创建表的对应目录用来保存表的数据。
详细信息:首先将表名,表中有几个字段,每个字段的类型,表中数据在HDFS的存放位置等元数据信息保存在元数据库(metaStore)中,而我们要计算的数据(即表中的数据)保存在HDFS中,默认将表保存在HDFS的文件夹为:/user/hive/ warehouse /表名

Hive中有默认的metaStore,且当Hive运行时即执行$HIVE_HOME /bin/hive命令时,会在
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值