Hive基础知识

最新推荐文章于 2020-12-09 21:19:15 发布

jsperlee

最新推荐文章于 2020-12-09 21:19:15 发布

阅读量406

点赞数

分类专栏： hive 文章标签：大数据

本文链接：https://blog.csdn.net/qq_27347421/article/details/105033296

版权

Hive是由Facebook实现并开源的数据仓库工具，基于Hadoop，用于处理和分析存储在HDFS上的结构化数据。它提供了HQL（Hive SQL）查询功能，将SQL语句转化为MapReduce任务。Hive具有可扩展性和良好的容错性，但不支持记录级别的增删改操作，且查询延迟较高，适用于离线批量数据计算。Hive的元数据通常存储在MySQL中，数据存储在HDFS，支持内部表、外部表、分区和表数据等。Hive的执行流程包括词法分析、编译、优化和生成MapReduce任务。Hive环境搭建涉及元数据库初始化、配置文件修改和驱动包添加。

摘要由CSDN通过智能技术生成

Hive 简介

1、什么是 Hive

Hive 由 Facebook 实现并开源，是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据映射为一张数据库表，并提供 HQL(Hive SQL)查询功能，底层数据是存储在 HDFS 上。Hive的本质是将 SQL 语句转换为 MapReduce 任务运行，使不熟悉 MapReduce 的用户很方便地利用 HQL 处理和计算 HDFS 上的结构化的数据，适用于离线的批量数据计算。
数据仓库之父比尔·恩门（Bill Inmon）在 1991 年出版的“Building the Data Warehouse”（《建立数据仓库》）一书中所提出的定义被广泛接受——数据仓库（Data Warehouse）是一个面向主题的（Subject Oriented）、集成的（Integrated）、相对稳定的（Non-Volatile）、反映历史变化（Time Variant）的数据集合，用于支持管理决策(Decision Making Support)。
Hive 依赖于 HDFS 存储数据，Hive 将 HQL 转换成 MapReduce 执行
所以说 Hive 是基于 Hadoop 的一个数据仓库工具，实质就是一款基于 HDFS 的 MapReduce计算框架，对存储在 HDFS 中的数据进行分析和管理。

Hive 特点

优点：
1、可扩展性,横向扩展，Hive 可以自由的扩展集群的规模，一般情况下不需要重启服务
横向扩展：通过分担压力的方式扩展集群的规模
纵向扩展：一台服务器cpu i7-6700k 4核心8线程，8核心16线程，内存64G => 128G
2、延展性，Hive 支持自定义函数，用户可以根据自己的需求来实现自己的函数
3、良好的容错性，可以保障即使有节点出现问题，SQL 语句仍可完成执行
缺点：
1、Hive 不支持记录级别的增删改操作，但是用户可以通过查询生成新表或者将查询结果导入到文件中（当前选择的 hive-2.3.2 的版本支持记录级别的插入操作）
2、Hive 的查询延时很严重，因为 MapReduce Job 的启动过程消耗很长时间，所以不能用在交互查询系统中。
3、Hive 不支持事务（因为不没有增删改，所以主要用来做 OLAP（联机分析处理），而不是 OLTP（联机事务处理），这就是数据处理的两大级别）。

Hive 和 RDBMS 的对比

总结：Hive 具有 SQL 数据库的外表，但应用场景完全不同，Hive 只适合用来做海量离线数据统计分析，也就是数据仓库。

Hive 架构

基本组成
一、用户接口
CLI，Shell 终端命令行（Command Line Interface），采用交互形式使用 Hive 命令行与 Hive进行交互，最常用（学习，调试，生产）JDBC/ODBC，是 Hive 的基于 JDBC 操作提供的客户端，用户（开发员，运维人员）通过这连接至 Hive server 服务Web UI，通过浏览器访问 Hive。
二、Thrift Server
Thrift 是 Facebook 开发的一个软件框架，可以用来进行可扩展且跨语言的服务的开发，
Hive 集成了该服务，能让不同的编程语言调用 Hive 的接口。
三、元数据存储
元数据，通俗的讲，就是存储在 Hive 中的数据的描述信息。
**Hive 中的元数据通常包括：表的名字，**表的列和分区及其属性，表的属性（内部表和外部表），表的数据所在目录Metastore 默认存在自带的 Derby 数据库中。缺点就是不适合多用户操作，并且数据存储目录不固定。数据库跟着 Hive 走，极度不方便管理
解决方案：通常存我们自己创建的 MySQL 库（本地或远程）Hive 和 MySQL 之间通过 MetaStore 服务交互。
四、Driver&#

最低0.47元/天解锁文章

jsperlee

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hive基础知识

Hive 简介1、什么是 HiveHive 由 Facebook 实现并开源，是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据映射为一张数据库表，并提供 HQL(Hive SQL)查询功能，底层数据是存储在 HDFS 上。Hive的本质是将 SQL 语句转换为 MapReduce 任务运行，使不熟悉 MapReduce 的用户很方便地利用 HQL 处理和计算 HDFS 上的结构化...
复制链接

扫一扫

专栏目录