Hive的特点、架构、数据模型等介绍

本文详细介绍了Hive,一种基于Hadoop的数据仓库工具,适用于大规模数据集的批处理作业。Hive不支持实时查询和行级数据更新,其特点是适合OLAP,提供类SQL查询语言HiveQL。Hive架构包括用户接口、元数据、HQL处理引擎、执行引擎和数据存储在HDFS或HBase中。Hive的数据类型包括基本类型和集合类型,数据存储灵活,无需预定义索引,支持管理表、外部表、分区和桶。工作原理涉及查询解析、元数据获取、MapReduce执行等步骤。
摘要由CSDN通过智能技术生成

Hive的定义:

Hive是建立在 Hadoop 上的数据仓库基础构架

提供了一系列的工具,可以用来进行数据提取转化加载(ETL)是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制

 

Hive的特点:

Hive 不适合那些需要低延迟的应用,例如,联机事务处理(OLTP),设计模式遵循联机分析处理(OLAP

Hive 不提供实时查询和基于行级的数据更新操作

Hive 的最佳使用场合是大数据集的批处理作业

Hive提供了一套类SQL的语言(HiveQL or HQL)用于执行查询类SQL 的查询方式将SQL 查询转换为MapReduce 的job 在Hadoop集群上执行

Hive 的数据存储在Hadoop 兼容的文件系统(例如,Amazon S3、HDFS)

Hive 不支持对数据的改写和添加,所有的数据都是在加载的时候确定的

hive数据加载过程采用“读时模式”,传统的关系型数据库在进行数据加载时,必须验证数据格式是否符合表字段定义,如果不符合,数据将无法插入至数据库表中,即采用“写时模式”。

 

Hive的架构(五部分):

用户接口(User Interface)主要有三个:Web UI 、command line和HiveHD Insight(在Windows服务器)

元数据:Hive 将元数据metadata存储在数据库中,如 mysql、derby元数据包含:表的信息、databases信息、表的列信息、字段类型信息和HDFS mapping(映射);

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值