《Hive编程指南》第一章

最新推荐文章于 2024-10-14 11:52:25 发布

行缓缓

最新推荐文章于 2024-10-14 11:52:25 发布

阅读量416

点赞数

分类专栏：读书笔记文章标签： hive 大数据数据仓库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_31246237/article/details/107887357

版权

目前正在做关于数仓的实习，阅读重点与hive相关，偏向开发/底层的内容可能会略过，读书笔记也不会囊括所有内容，而且添上了实习时mentor提点的内容，择需而看。

《Hive编程指南》

- 第一章基础知识

第一章基础知识

数据是了解用户、提高业务在市场上表现、提高基础架构效率的资源。

Hadoop生态系统是为大数据集产生的解决方案，实现了一个计算模型MapReduce，它可以将计算任务分割成多个处理单元，分散到一群家用或服务器级别的硬件机器上。

Hive的存在意义

用户从现有的基于传统关系的数据架构转移到Hadoop上时，Hive提供给sql用户利用HQL查询存储在Hadoop集群中的数据。
Hive将大多数查询转换为MapReduce任务（job），使用户不需要接触到底层的API。

说人话：使用Hadoop底层的API实现算法、查询等工作过于复杂，不友好，高级工具应运而生

Hive的特点

适合用于数仓程序，进行静态数据分析，不需要快速响应，且数据本身不频繁变化
不支持记录级别的增删改
有查询延时（基于面向批处理的Hadoop系统，MapReduce任务的启动过程中需要消耗较长时间，因此在传统数据库中秒级别可以完成的查询，在Hive中即使数据集相对小，往往也要执行更长时间）
不支持事务、OLTP，更接近OLAP工具

OLTP和OLAP的区别

参考文章：
操作数据库系统(OLTP)和联机分析处理系统(OLAP)的区别
 OLAP与OLTP的优化方案对比
 数据仓库：OLTP与OLAP查询

举例：

①在人员管理系统中，删除一个人员，既需要删除人员的基本资料，也要删除和该人员相关的信息，如信箱，文章等等

②银行转账，涉及一个账户上资金减少，另一个账户上资金增加

这些数据库操作语句就构成一个事务，需要有一个机制来避免只删除了部分数据的情况

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。