Hive数据仓库工具基本架构和入门部署详解

最新推荐文章于 2024-08-07 11:27:42 发布

虚幻私塾

最新推荐文章于 2024-08-07 11:27:42 发布

阅读量383

点赞数

分类专栏： python 文章标签：数据仓库 hive 架构计算机

本文链接：https://blog.csdn.net/u013190417/article/details/126795583

版权

Apache Hive是一个基于Hadoop的数据仓库工具，提供了类SQL查询功能，简化了对大规模数据集的处理。Hive不存储数据，而是依赖HDFS，其计算模型基于MapReduce或Tez、Spark。Hive与关系型数据库的主要区别在于存储系统和计算模型。Hive具有易于学习、支持海量数据分析和扩展性好等优点，但也存在查询效率低、不适合实时查询等缺点。文章详细介绍了Hive的架构，包括组成部分如元数据、编译器、优化器，以及安装过程，如内嵌模式、本地MetaStore和远程MetaStore的设置。

摘要由CSDN通过智能技术生成

🚀 优质资源分享 🚀

学习路线指引（点击解锁）	知识定位	人群定位
🧡 Python实战微信订餐小程序 🧡	进阶级	本课程是python flask+微信小程序的完美结合，从项目搭建到腾讯云部署上线，打造一个全栈订餐系统。
💛Python量化交易实战💛	入门级	手把手带你打造一个易扩展、更安全、效率更高的量化交易系统

目录* 概述
+ 定义
+ 本质
+ 特点
+ Hive与Hadoop关系
+ Hive与关系型数据库区别
+ 优缺点
+ 其他说明

概述

定义

Hive 官网 https://hive.apache.org/

Hive 官网Wiki文档 https://cwiki.apache.org/confluence/display/Hive/

Hive GitHub源码地址 https://github.com/apache/hive

Apache Hive™数据仓库软件使用SQL对分布式存储中的大型数据集进行读写和管理，结构可以映射到已存储的数据上，也提供命令行工具和JDBC驱动连接用户到Hive。目前最新版本为3.1.3

Hive由Facebook开源用于解决海量结构化日志的数据统计,基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射成一张表，并且提供类SQL的查询功能，这套Hive SQL简称HQL。Hive仅仅是一个工具，本身不存储数据只提供一种管理方式，同时也不涉及分布式概念；Hive不是为在线事务处理(OLTP)工作负载而设计的，它最适合用于对数据仓库进行统计分析。

本质

Hive本质就是MapReduce，将类SQL（HQL）转换成MapReduce程序，减少编写MapReduce的复杂度，MapReduce对用户来说虽然灵活，但需要用户自己实现功能接口，不像Spark高层级应用提供各种算子操作。hive支持了三种底层计算引擎包括mr、tez、spark，默认计算引擎mr，用户可以指定具体使用哪个底层计算引擎（set hive

最低0.47元/天解锁文章

虚幻私塾

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hive数据仓库工具基本架构和入门部署详解

Hive 官网Hive 官网Wiki文档Hive GitHub源码地址Apache Hive™数据仓库软件使用SQL对分布式存储中的大型数据集进行读写和管理，结构可以映射到已存储的数据上，也提供命令行工具和JDBC驱动连接用户到Hive。目前最新版本为3.1.3Hive由Facebook开源用于解决海量结构化日志的数据统计,基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射成一张表，并且提供类SQL的查询功能，这套Hive SQL简称HQL。
复制链接

扫一扫

专栏目录