Hive数据仓库工具基本架构和入门部署详解

Apache Hive是一个基于Hadoop的数据仓库工具,提供了类SQL查询功能,简化了对大规模数据集的处理。Hive不存储数据,而是依赖HDFS,其计算模型基于MapReduce或Tez、Spark。Hive与关系型数据库的主要区别在于存储系统和计算模型。Hive具有易于学习、支持海量数据分析和扩展性好等优点,但也存在查询效率低、不适合实时查询等缺点。文章详细介绍了Hive的架构,包括组成部分如元数据、编译器、优化器,以及安装过程,如内嵌模式、本地MetaStore和远程MetaStore的设置。
摘要由CSDN通过智能技术生成

🚀 优质资源分享 🚀

学习路线指引(点击解锁) 知识定位 人群定位
🧡 Python实战微信订餐小程序 🧡 进阶级 本课程是python flask+微信小程序的完美结合,从项目搭建到腾讯云部署上线,打造一个全栈订餐系统。
💛Python量化交易实战💛 入门级 手把手带你打造一个易扩展、更安全、效率更高的量化交易系统

@

目录* 概述
+ 定义
+ 本质
+ 特点
+ Hive与Hadoop关系
+ Hive与关系型数据库区别
+ 优缺点
+ 其他说明

概述

定义

Hive 官网 https://hive.apache.org/

Hive 官网Wiki文档 https://cwiki.apache.org/confluence/display/Hive/

Hive GitHub源码地址 https://github.com/apache/hive

Apache Hive™数据仓库软件使用SQL对分布式存储中的大型数据集进行读写和管理,结构可以映射到已存储的数据上,也提供命令行工具和JDBC驱动连接用户到Hive。目前最新版本为3.1.3

Hive由Facebook开源用于解决海量结构化日志的数据统计,基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一张表,并且提供类SQL的查询功能,这套Hive SQL简称HQL。Hive仅仅是一个工具,本身不存储数据只提供一种管理方式,同时也不涉及分布式概念;Hive不是为在线事务处理(OLTP)工作负载而设计的,它最适合用于对数据仓库进行统计分析。

本质

Hive本质就是MapReduce,将类SQL(HQL)转换成MapReduce程序,减少编写MapReduce的复杂度,MapReduce对用户来说虽然灵活,但需要用户自己实现功能接口,不像Spark高层级应用提供各种算子操作。hive支持了三种底层计算引擎包括mr、tez、spark,默认计算引擎mr,用户可以指定具体使用哪个底层计算引擎(set hive

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值