Hive 笔记

最新推荐文章于 2024-06-22 02:30:00 发布

Felix-Li

最新推荐文章于 2024-06-22 02:30:00 发布

阅读量1.7k

点赞数 1

分类专栏：大数据文章标签： hive hadoop big data 大数据数据仓库

本文链接：https://blog.csdn.net/ijwwio/article/details/122469456

版权

Hive概念

Hive是一个构建在 Hadoop 上的数据仓库框架，是一个 Apache 项目，很多组织把它用作一个通用的、可伸缩的数据处理平台。Hive 一般在工作站上运行。它把 SQL 查询转换为一系列在 Hadoop 集群上运行的作业。Hive 把数据组织为表，通过这种方式存储在 HDFS 上的数据赋予结构。元数据（如表模式）存储在 metastore 数据库中。

优势

Hive 把查询转换为一个作业并执行这个作业，然后将结果打印到控制台。虽然 Hive 和其他数据库有一些细微的差别，例如 Hive 支持的 SQL 结构以及查询中数据的格式等但能够在原始数据上执行 SQL 查询，才能彰显出 Hive 的强大功能。

例如
创建表 records;

CREATE TABLE records(year STRING,temperature INT,quality INT)
ROW FORMAT DELIMITED
  FIELDS TERMINATED BY '\t';

ROW FORMAT : 是 HiveQL 特有的，声明的是数据文件的每一行是由制表符分隔的文本
向 Hive 输入数据

LOAD DATA LOCAL INPATH 'input\ncdc\micro-tab\sample.txt'
OVERWRITE INTO TABLE records;

LOAD DATA语句中的 OVERWRITE 关键字告诉 Hive 删除表对应目录中已有的所有文件。

Hive与传统数据库相比

Hive 在很多方面和传统数据库类似，但是起初对 HDFS 和 MapReduce 底层的依赖意味着它的体系结构有别于传统数据库，而这些区别又影响着 Hive 所支持的特性。

读时模式 vs 写时模式

读时模式：Hive 在数据的校验并不在加载数据时进行，而在查询中进行
写时模式：数据是在写入数据库时对照模式进行检查

更新、事务和索引

更新、事务和索引是传统数据库最重要的特性。但是，Hive目前没有考虑支持这些特性。
目前 Hive 的索引分成两类，紧凑（compact）索引和位图（bitmap）索引。
紧凑索引存储每个值的 HDFS 块号，位图索引使用压缩的

最低0.47元/天解锁文章

Felix-Li

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
Hive 笔记

Hive概念Hive是一个构建在 Hadoop 上的数据仓库框架，是一个 Apache 项目，很多组织把它用作一个通用的、可伸缩的数据处理平台。Hive 一般在工作站上运行。它把 SQL 查询转换为一系列在 Hadoop 集群上运行的作业。Hive 把数据组织为表，通过这种方式存储在 HDFS 上的数据赋予结构。元数据（如表模式）存储在 metastore 数据库中。优势Hive 把查询转换为一个作业并执行这个作业，然后将结果打印到控制台。虽然 Hive 和其他数据库有一些细微的差别，例如 Hive
复制链接

扫一扫

专栏目录