【大数据技术】Hive基本原理以及使用教程

后端研发Marion

已于 2024-03-22 18:55:34 修改

阅读量511

点赞数 3

分类专栏：大数据文章标签： java hive hadoop 大数据

于 2024-03-22 18:51:49 首次发布

本文链接：https://blog.csdn.net/luomao2012/article/details/136949451

版权

38 篇文章 2 订阅

订阅专栏

元数据存储：Hive 使用元数据来描述数据存储在Hadoop分布式存储系统中的方式。元数据包含表的schema（列名、数据类型等）、表的分区、表的位置等信息，这些元数据通常存储在关系型数据库中，如MySQL。
HiveQL查询解析：用户使用类SQL语言HiveQL编写查询，Hive会将HiveQL语句解析成抽象语法树AST（Abstract Syntax Tree），然后转化为逻辑执行计划，最终转换为物理执行计划。
执行引擎：Hive可以运行在不同的执行引擎上，比如MapReduce、Tez、Spark等。执行引擎负责将物理执行计划转换为任务并在Hadoop集群上执行。
数据存储格式：Hive支持多种数据存储格式，如文本文件、Parquet、ORC等。选择合适的数据存储格式可以影响查询性能和存储效率。

在终端输入 hive 命令启动Hive CLI（命令行界面）。

CREATE DATABASE IF NOT EXISTS mydatabase;

CREATE TABLE IF NOT EXISTS mytable (
    id INT,
    name STRING
) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE;

LOAD DATA LOCAL INPATH '/path/to/datafile.csv' OVERWRITE INTO TABLE mytable;

SELECT * FROM mytable WHERE id = 1;

CREATE TABLE IF NOT EXISTS partitioned_table (
    id INT,
    name STRING
) PARTITIONED BY (date STRING);

SELECT COUNT(*) FROM mytable;

可以编写自定义函数（UDF、UDAF）并在Hive中注册和使用以扩展功能。

在Hive CLI中输入 quit; 或 exit; 命令退出Hive。

参考资料

关注

专栏目录