hive
文章平均质量分 93
hive
濛小万
这个作者很懒,什么都没留下…
展开
-
hive调优—通用优化策略
本文从hql 语句和参数设置两个方面入手,介绍一些可以通用的优化策略。至于map 和reduce 数量的调整暂不叙述。文章目录一、join优化1. 小表连大表2. join 相同条件放在一起3. mapjoin4. 桶表连接优化5. 使用left-semi join6. 谓词下推7. join 字段显式类型转换二、group by优化1. 数据倾斜2. map 端聚合三、order by优化四、本地模式五、读取数据不启用MapReduce六、JVM重用七、设置并行八、开启严格模式九、小文件优化十、建表优化原创 2022-03-07 18:41:37 · 2073 阅读 · 0 评论 -
hive开窗/窗口函数
想象这样一种场景,既想保留所有数据,又想得到按某几列分组的聚合值,或者再对数据进行排序,要如何实现呢?这时候开窗函数就有了用武之地,聚合函数每组只保留一个值,而开窗函数可以在不减少原表行数的情况下,实现分组和排序的功能。目录语法规则排位函数聚合函数偏移函数分布函数语法规则窗口函数 over (partition by <用于分组的列名> order by <用于排序的列名> [desc] <倒序排列>)排位函数括号里留空,不写参数rank() 相等的值排原创 2022-03-05 17:10:09 · 2401 阅读 · 0 评论 -
hive复杂类型数据详解—array,map,struct
hive复杂数据类型有三种,map,array,struct。本文会详细介绍三种类型数据的建表、查询、相关函数以及与其他数据类型的相互转换。目录一、简介二、建表语句三、类型构建四、查询array类型map类型struct类型五、与其他数据类型转换将array和map转化为基本数据类型(行转列)基本数据类型转化为array、map(列转行)一、简介map 是一种(key-value)键值对类型;array 是一种数组类型,array 中存放相同类型的数据;struct 是一种集合类型。二、建表语句原创 2022-03-03 22:18:02 · 23503 阅读 · 1 评论 -
零基础学习hive(简单实用)
hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。hive本身并不存储数据,数据存储在hdfs上。hadoop以及hive的安装可以查看:https://blog.csdn.net/weixin_40474941/article/details/123132371通过这篇文章你可以原创 2022-03-01 17:26:24 · 3304 阅读 · 0 评论