Hive学习总结

最新推荐文章于 2022-07-08 14:15:25 发布

烈光

最新推荐文章于 2022-07-08 14:15:25 发布

阅读量1.3k

点赞数

本文链接：https://blog.csdn.net/qq_35522637/article/details/96888402

版权

本文为Hive学习总结

一、产生背景

1）MapReduce编程的不便性
2）HDFS上的文件缺少Schema

二、什么是Hive

Hive是构建在Hadoop上的数据仓库，最初用于解决海量结构化的日志数据统计问题

官网解释：
The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. Structure can be projected onto data already in storage. A command line tool and JDBC driver are provided to connect users to Hive.

三、为什么使用Hive

1）简单，容易上手（提供了类SQL查询语言HQL）
2）为超大数据集设计的计算/存储扩展能力（MR，HDFS）
3）统一的元数据管理（可与Presto/Impala/SparkSQL等共享数据）

Hive定义了一种类SQL查询语言：HiveQL，通常用于进行离线数据处理，底层的执行引擎：MapReduce，Tez，Spark

压缩：GZIP，LZ0，Snappy，BZIP2
存储：TextFile，SequenceFile，RCFile，ORC，Parquet

四、关于Hive

1）元数据

Hive的表在逻辑上由存储的数据和描述表中数据形式的相关元数据组成
metastore是Hive元数据的集中存放地，metastore包括两部分：服务和后台数据的存储
默认情况下，metastore服务和Hive服务运行在同一个JVM中，它包含了一个内嵌的以本地磁盘作为存储的Derby数据库实例（内嵌metastore）
当每次只有一个内嵌Derby数据库可以访问某个磁盘上的数据库文件，这就意味着一次只能为每个metastore打开一个Hive会话，不支持多会话。若要支持多会话，需要配置一个独立的数据库（通常为MySQL）（本地metastore），因为metastore服务和Hive运行在同一个进程中，但连接的是在另一个进程中运行的数据库

2）托管表和外部表

托管表：Hive负责管理数据，即Hive把数据移入它的仓库目录（warehouse directory）
外部表：Hive到仓库目录外的位置访问数据

区别：

托管表加载数据时，Hive把数据移到仓库目录，丢弃表时，元数据和数据会被一起删除
外部表加载数据时，Hive不会把数据移到仓库目录，丢弃表时，只会删除元数据，不会删除数据

场景：

如果所有处理都由Hive完成，应使用托管表
如果用Hive和其他工具来处理同一个数据集，应使用外部表（普遍用法为把存放在HDFS的初始数据集用作外部表进行使用）

烈光

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Hive学习总结

本文为Hive学习总结一、产生背景1)MapReduce编程的不便性2)HDFS上的文件缺少Schema二、什么是HiveHive是构建在Hadoop上的数据仓库,最初用于解决海量结构化的日志数据统计问题官网解释:The Apache Hive ™ data warehouse software facilitates reading, writing, and managing l...
复制链接

扫一扫