Hive及其工作机制简介

最新推荐文章于 2024-07-28 14:07:27 发布

墨染百城

最新推荐文章于 2024-07-28 14:07:27 发布

阅读量2.2k

点赞数

分类专栏：大数据框架 Hive 文章标签： hive 工作机制简介

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mrbcy/article/details/65009247

版权

大数据框架同时被 2 个专栏收录

31 篇文章 0 订阅

订阅专栏

11 篇文章 0 订阅

订阅专栏

Hive是一个基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一个表。并提供类SQL查询功能。

数据仓库

数据库是用来支撑在线联机业务的。比如页面上的数据的展示，保存客户操作产生的数据。这类要求变更是实时的、事务的。

数据仓库：如果联机数据库中的数据太大了，需要将历史信息导入到离线的仓库中。可以存入各种各样的系统的数据。可以按照一定主题来组织这些表。每一个主题中的数据可能结构跟系统的表不同。可能需要从运行数据库中多个表中得到。面向历史的。

数据仓库的建模模型

不遵循数据库范式，绝大部分是宽表，冗余没关系。因为目标不同，设计就不同。大部分都是以空间换时间。

几个建模的模型：

星型
雪花型
三范式型(不常用)

数据仓库有什么用

做统计，做数据分析。比如统计年度销售额，月度销售额，广告推荐等。

为什么用Hive

使用Hadoop面临的问题：

学习成本很高
项目周期要求太短
MapReduce实现复杂查询逻辑开发难度太大

为什么用Hive：

操作接口采用类SQL语法，提供快速开发的能力。
避免了写MapReduce

Hive的工作机制

将清洗过的数据放入到HDFS中，就可以进行各种统计了。但是有些需求用MapReduce写起来非常难，所以有了Hive。

先上一张架构图。

Hive提供接口，用户可以用它创建表。表会放在/user/hive/warehouse/，一张表就是一个目录。元信息会记录在关系型数据库中(MySQL)，它也内置了Debby，但是它是嵌入式的数据库，会造成不同Hive建表不可见的问题。

可以在Hive中建表，最好字段类型都用String，比较方便。

然后就可以使用SQL语句查询了。每一个SQL语句都被Hive的语法解析器解析、组装成一个MapReduce程序，然后提交给YARN，运行完成后就可以把结果输出出来。也可以把结果写到其他表里面。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

博客等级

码龄8年

187
原创

224
点赞

869
收藏

252
粉丝

关注

私信

热门文章

分类专栏

Mproxy项目实录 7篇
Java并发编程 2篇
Linux基础 5篇
运维 6篇
大数据框架 31篇
Java基础 28篇
自定义rpc框架 13篇
maven 1篇
TDD 5篇
书山有路 16篇
测试
软件测试的艺术 4篇
Hadoop 29篇
Ambari 1篇
Java并发编程 1篇
Python 15篇
Mproxy项目实录 7篇
爬虫 2篇
信息检索笔记 2篇
LeetCode 41篇
随笔 5篇
职场 4篇
Hive 11篇
算法 5篇
Scala 1篇
SQL练习 2篇
SQL学习 15篇
flume 1篇
管理软件 1篇

最新评论

【SQL练习】经典SQL练习题
大数据-: 19题跟21题有什么区别哇
【SQL练习】经典SQL练习题
weixin_43840217: 第42题，答案select *会报错，个人理解[code=sql] SELECT s1.sno, s1.cno, s1.degree FROM scores s1 INNER JOIN (SELECT s2.cno c, MAX(s2.degree) max FROM scores s2 GROUP BY s2.cno) s3 ON s1.cno=c and s1.degree=max; [/code]
【SQL练习】经典SQL练习题
weixin_43840217: 记录第33题，[code=sql] SELECT s1.* FROM scores s1 INNER JOIN (SELECT s2.cno cno , AVG(s2.degree) as avg FROM scores s2 GROUP BY s2.cno) s3 ON s1.cno=s3.cno and s1.degree<s3.avg; [/code]
【SQL练习】经典SQL练习题
weixin_43840217: 第28题，只找到了计算机系副教授“李诚”。根据题意，电子工程系的讲师“张旭”也应该被找到吧。[code=sql] SELECT t0.tname, t0.prof FROM teachers t0 WHERE t0.prof<>(SELECT DISTINCT t1.prof FROM teachers t1 INNER JOIN teachers t2 on t1.depart<>t2.depart where t1.prof=t2.prof); [/code]
【SQL练习】经典SQL练习题
Face_spider: 刚看到这个帖子,看评论都在说20题,好吧我也做出来了献丑了 select * from (select *,row_number() over(partition by cno order by degree desc) as rk from scores) t1 where rk != 1 and sno in (select sno from scores group by sno having count(cno) > 1);

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。