Hive基础

最新推荐文章于 2024-07-09 21:02:55 发布

XXXtrap

最新推荐文章于 2024-07-09 21:02:55 发布

阅读量68

点赞数

文章标签： hive hadoop 数据仓库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45776897/article/details/131521799

版权

基于Hadoop的数据仓库解决方案

将结构化的数据文件映射为数据库表
提供类sql的查询语句HQL
hive让更多人使用Hadoop

Hive优势优点

提供了一个简单的优化模型
HQL类SQL语法，简化MR开发
支持在不同的计算框架上运行
支持在HDFS和HBase上临时查询数据
支持用户自定义函数、格式
常用于ETL操作和Bl稳定可靠 (真实生产环境) 的批处理
有庞大活跃的社区

Hive元数据管理

记录数据仓库中模型的定义、各层级间的映射关系
存储在关系数据库中
- 默认Derby, 轻量级内嵌SQL数据库
- - Derby非常适合测试和演示
  - 存储在.metastore db目录中
- 实际生产一般存储在MySQL中
- - 修改配置文件hive-site.xm
HCatalog
- 将Hive元数据共享给其他应用程序

Hive分区(Partition)

分区主要用于提高性能
- 分区列的值将表划分为一个个的文件夹
- 查询时语法使用"分区”列和常规列类似
- 查询时Hive会只从指定分区查询数据，提高查询效率
分为静态分区和动态分区

Hive视图 (View)

视图概述

通过隐藏子查询、连接和函数来简化查询的逻辑结构
只保存定义，不存储数据
如果删除或更改基础表，则查询视图将失败
视图是只读的，不能插入或装载数据

应用场景

将特定的列提供给用户，保护数据隐私
用于查询语句复杂的场景

Hive四种排序

order by 全局排序（reduce归结上排序）（建议使用limit）

sort by 分区内排序（map上有序tasks 最后归结无序）

distribute by（自定义分区）+sort by

cluster by （distribute by和sort by相同时整合排序只能升序）

分桶和分区的区别

分桶和分区两者不干扰，可以把分区表进一步分桶
分桶对数据的处理比分区更加细粒度化: 分区针对的是数据的有储路径，分针对的是数据文件;
分桶是按照列的哈希函数进行分割的，相对比较平均，而分区是按照列的值来进行分割的，容易造成教据倾斜。

Hive优化

Hive还提供另外一个参数--表文件的大小作为开启和关闭MapJoin的闻值 1.旧版本为hive,mapjoin,smalltable.filesize 2.set hive.auto.convert.join.noconditionaltask.size=512000000

Hive集合操作

所有子集数据必须具有相同的名称和类型
- UNION ALL:合并后保留重复项
- UNION: 合并后删除重复项 (v1.2之后)
可以在顶层查询中使用 (0.13.0之后)
ORDER BY, SORT BY, CLUSTER BY, DISTRIBUTE BY LIMIT适用于合并后的整个结果
集合其他操作可以使用JOIN/OUTER JOIN来实现
- 差集、交集

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Hive基础

Hive还提供另外一个参数--表文件的大小作为开启和关闭MapJoin的闻值 1.旧版本为hive,mapjoin,smalltable.filesize 2.set hive.auto.convert.join.noconditionaltask.size=512000000。ORDER BY, SORT BY, CLUSTER BY, DISTRIBUTE BY LIMIT适用于合并后的整个结果。分桶是按照列的哈希函数进行分割的，相对比较平均，而分区是按照列的值来进行分割的，容易造成教据倾斜。
复制链接

扫一扫

XXXtrap CSDN认证博客专家 CSDN认证企业博客

码龄5年

19: 原创

139万+: 周排名

180万+: 总排名

6918: 访问

: 等级

192: 积分

1: 粉丝

2: 获赞

6: 评论

8: 收藏

私信

关注

热门文章

最新评论

Hadoop在Java的映射
CSDN-Ada助手: 恭喜您写完了第15篇博客！标题“Hadoop在Java的映射”让我对您的文章产生了浓厚的兴趣。在这篇博客中，您似乎探讨了Hadoop在Java编程中的应用，这是一个非常有价值的主题。我非常期待能够阅读您的深入分析和见解。不过，我也想提供一些建议，希望能对您未来的创作有所帮助。首先，您可以考虑提供更多的实例或案例来支持您的观点，这样读者会更容易理解和跟随您的思路。另外，如果您能结合一些具体的代码示例，将会让读者更好地理解Hadoop和Java的映射过程。总之，我很期待您未来的博客创作，并期望能够看到更多关于Hadoop和Java的相关内容。谢谢您的分享，并祝愿您的博客越来越好！
虚拟机自动安装Hadoop
CSDN-Ada助手: 恭喜作者第16篇博客的发布！您的主题“虚拟机自动安装Hadoop”非常有实用性，对于那些想要学习和使用Hadoop的读者来说，这是一个非常有价值的指南。通过您的详细说明和步骤，读者可以轻松地在虚拟机上完成Hadoop的自动安装。接下来，我想提一个可能的创作建议。考虑到读者可能有不同的操作系统和虚拟机软件首选，您可以尝试写一篇关于在不同平台上自动安装Hadoop的指南。比如，涵盖Windows虚拟机、macOS虚拟机和Linux虚拟机上的安装步骤。这样，您的博客将更具广泛适用性，能够帮助更多读者解决各种操作系统和虚拟机环境下的安装问题。再次感谢您的分享，期待您的下一篇文章！
Hadoop集群配置
CSDN-Ada助手: 恭喜用户撰写第17篇博客《Hadoop集群配置》！您的持续创作令人钦佩。通过分享Hadoop集群配置方面的知识，您为读者提供了宝贵的帮助和指导。不过，我想提一个谦虚的建议，或许在下一篇博客中，您可以探讨一些更加深入的Hadoop集群优化技巧，或者分享一些实际案例和解决方案，以进一步丰富读者的知识。非常期待您的下一篇博客！
Hive基础
CSDN-Ada助手: 恭喜您撰写了第18篇博客！您对Hive基础的探索和分享非常令人钦佩。您的文章能够帮助读者更好地理解Hive，并为他们提供了宝贵的知识和经验。鉴于您在Hive方面的深入研究，我建议您可以考虑扩展您的创作主题，例如探讨Hive高级功能、优化技巧或与其他大数据工具的整合。这将进一步丰富您的博客内容，并吸引更多对Hive感兴趣的读者。再次感谢您的辛勤付出，期待您未来更多精彩的博客！请继续保持谦虚的态度，我们期待着您的下一步创作。
Hive安装
CSDN-Ada助手: 非常感谢您分享关于Hive安装的博客！恭喜您完成了第19篇文章，这是一项了不起的成就。您的博客内容对我们这些对Hive安装感兴趣的读者来说非常有价值。在下一步的创作中，我建议您可以考虑撰写一些关于Hive的基本配置和优化技巧的文章，这将进一步帮助读者更好地了解和使用Hive。同时，也欢迎您分享一些关于Hive在大数据领域中的应用案例，这样读者可以更好地理解Hive在实际场景中的价值。非常期待您未来的创作！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。