Hive概述

最新推荐文章于 2024-07-24 20:46:25 发布

u013063153

最新推荐文章于 2024-07-24 20:46:25 发布

阅读量819

点赞数

分类专栏： Hive Hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013063153/article/details/54574935

版权

Hive是基于Hadoop的分布式数据仓库工具，提供SQL查询功能，简化MapReduce编程。它包括解释器、编译器和优化器，元数据存储在MySQL或Derby中，数据存储在HDFS。Hive支持外部表和内部表，适用于数据仓库的统计分析，不适用于频繁的DML操作。在企业中，Hive与Spark SQL结合是常见数据分析方案。

摘要由CSDN通过智能技术生成

Hive本质是什么？

1.Hive是分布式数据仓库，同时又是查询引擎，所有Spark SQL取代只是Hive查询引擎，在企业中Hive + Spark SQL是目前最为经典的数据分析组合。

2.Hive本身是一个单机版本软件，主要负责：

a) 把HQL翻译成Mapper(s)-Reducer-Mapper(s)代码，并且可能产生很多MapReduces的Job

b) 把生产的MapReduce代码及相关资源打包成Jar，发布到Hadoop集群中运行（这一切都是自动的）

3.Hive的架构

Hive安装和配置

1.export 环境变量

2.vim hive-env.sh

export HADOOP_HOME

3.vim hive.site.xml

hive.site.xml指定Hive数据仓库的具体的具体存储。

4.安装MySQL

5.Hive的表有两种基本类型

外部表：数据不属于Hive数据仓库，元数据中会表达具体数据在哪里，使用的时候和内部表的使用时一样的，只是通过Hive去删除的话，此时删除的是元数据，并没有删除数据本身

内部表：这种表数据属于Hive本身，原来的数据在HDFS的其他地方，此时数据会通过HDFS移动到Hive数据仓库所在的目录下，如果删除Hive中的该表的话，数据和元数据均会被删除。

说明：

Hive默认情况下，放元数据的是Derby，遗憾的是Derby是单用户的，在生产环境下一般采用支持多用户的数据库，来

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。