Hive简介

标签: HIive
57人阅读 评论(0) 收藏 举报
分类:

Hive是一个基于hadoop的数据仓库平台。通过hive,我们可以方便地进行ETL的工作。hive定义了一个类似于SQL的查询语言:HQL,能够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行。

HiveFacebook 20088月刚开源的一个数据仓库框架,其系统目标与 pig 有相似之处,但它有一些Pig目前还不支持的机制,比如:更丰富的类型系统、更类似SQL的查询语言、Table/Partition元数据的持久化等。

Hive 可以看成是从SQLMap-Reduce 映射器 

hive的组件和体系架构:

hive web接口启动:./hive --service hwi

浏览器访问:http://localhost:9999/hwi/

默认情况下,Hive元数据保存在内嵌的 Derby 数据库中,只能允许一个会话连接,只适合简单的测试。为了支持多用户多会话,则需要一个独立的元数据库,我们使用 MySQL 作为元数据库,Hive 内部对 MySQL 提供了很好的支持。

Hive安装

内嵌模式:元数据保持在内嵌的Derby模式,只允许一个会话连接

本地独立模式:在本地安装Mysql,把元数据放到Mysql

远程模式:元数据放置在远程的Mysql数据库。

Hive的数据放在哪儿?

数据在HDFSwarehouse目录下,一个表对应一个子目录。

本地的/tmp目录存放日志和执行计划

hive的表分为两种,内表和外表。 
Hive
创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。 
在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。

使用Mysql作为Hive metaStore的存储数据库

其中主要涉及到的表如下:

表名

说明

关联键

TBLS

所有hive表的基本信息(表名,创建时间,所属者等)

TBL_ID,SD_ID

TABLE_PARAM

表级属性,(如是否外部表,表注释,最后修改时间等)

TBL_ID

COLUMNS

Hive表字段信息(字段注释,字段名,字段类型,字段序号)

SD_ID

SDS

所有hive表、表分区所对应的hdfs数据目录和数据格式

SD_ID,SERDE_ID

SERDE_PARAM

序列化反序列化信息,如行分隔符、列分隔符、NULL的表示字符等

SERDE_ID

PARTITIONS

Hive表分区信息(所属表,分区值)

PART_ID,SD_ID,TBL_ID

PARTITION_KEYS

Hive分区表分区键(即分区字段)

TBL_ID

PARTITION_KEY_VALS

Hive表分区名(键值)

PART_ID

查看评论

Hive架构以及应用介绍

Hive这个框架在Hadoop的生态体系结构中占有及其重要的地位,在实际的业务当中用的也非常多,可以说Hadoop之所以这么流行在很大程度上是因为Hive的存在。那么Hive究竟是什么,为什么在Had...
  • a2011480169
  • a2011480169
  • 2016年05月23日 16:39
  • 14122

Hive系统架构简介

文章转载自:http://www.yiibai.com/hive/ Hive是什么 Hive 不是 Hive特点 Hive架构 Hive架构的更一般的架构 Hive工作原理Hive是什么?Hive是一...
  • qq_806913882
  • qq_806913882
  • 2016年12月07日 22:06
  • 528

hive存储过程系列文章

http://lxw1234.com/archives/2015/09/492.htm
  • myProgrames
  • myProgrames
  • 2016年07月26日 13:29
  • 1929

Hive基础知识介绍

Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,可通过HQL语句实现简单的MR统计,Hi...
  • zhongqi2513
  • zhongqi2513
  • 2017年04月06日 12:05
  • 4370

Hive原理与不足

UHP博客文章地址:http://yuntai.1kapp.com/?p=1035 原创文章,转载请注明出处:http://blog.csdn.net/wind5shy/articl...
  • xiaoshunzi111
  • xiaoshunzi111
  • 2015年10月26日 21:40
  • 520

Apache Hive on Apache Tez

是Apache最新开源的支持DAG作业的计算框架,它直接源于MapReduce框架,核心思想是将Map和Reduce两个操作进一步拆分,即Map被拆分成Input、Processor、Sort、Mer...
  • wind520
  • wind520
  • 2014年10月30日 16:08
  • 6676

Hive-1-Hive介绍和工作原理

1、 什么是Hive   hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优...
  • f369504543
  • f369504543
  • 2015年01月24日 15:08
  • 1582

Hadoop基础知识---Hive篇

HIVE 简介 Hive是Hadoop生态系统中必不可少的一个工具,它提供了一种SQL方言,可以查询存储在Hadoop分布式文件系统(HDFS)中的数据或其它和hadoop集成的文件系统,如果Ma...
  • bigdata_player
  • bigdata_player
  • 2016年09月03日 17:46
  • 1925

hive第一篇----简介和使用客户端

1简介   什么是Hive •Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 •本质是将SQL转换为MapReduce程序 ...
  • crazyhacking
  • crazyhacking
  • 2014年01月22日 15:23
  • 8527

Hive几种参数配置方法

写在前面的话,学Hive这么久了,发现目前国内还没有一本完整的介绍Hive的书籍,而且互联网上面的资料很乱,于是我决定写一些关于《Hive的那些事》序列文章,分享给大家。我会在接下来的时间整理有关Hi...
  • w397090770
  • w397090770
  • 2014年01月10日 10:13
  • 9507
    个人资料
    专栏达人 持之以恒
    等级:
    访问量: 4848
    积分: 553
    排名: 9万+
    博客专栏
    python

    文章:43篇

    阅读:3794
    文章存档
    最新评论