![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hive
文章平均质量分 92
Southwest-
专注大数据领域(Spark、Flink、Hadoop生态、Kafka、数据仓库、数据中台...)
展开
-
Hive——Hive中行转列、列转行
文章目录1. 行转列2. 列转行1. 行转列原始数据如下图:转换SQL:select name, collect_list(score) from db.grade group by name;结果:2. 列转行原始数据:转换SQL:select name, score from db.grade lateral view explode (scores) tmp as score结果:...原创 2020-11-27 21:25:43 · 159 阅读 · 0 评论 -
Hive——Hive窗口分析函数总结
文章目录窗口分析函数1. 分析函数2. 聚合函数3. 窗口函数窗口分析函数函数中用到的表数据如下图:1. 分析函数row_number()rank()dense_rank()这3个函数通常用在组内排序中,但实现的效果却不相同,用法如下:select name,subject,score, row_number() over(partition by name order by score) rn, rank() over(partition by name原创 2020-11-27 21:22:58 · 143 阅读 · 0 评论 -
Hive——Hive/HiveSQL性能优化
文章目录分区partition1. 静态分区Static Partition2. 动态分区Dynamic Partition我们知道Hive是一个构建在MapReduce之上并提供了SQL语法的查询分析引擎。虽然Hive可以处理巨量的数据,但是不同的优化手段会在处理时间上产生很大的差异。在Hive中,可以从以下几个方面进行优化:分区partition分桶bucket使用Spark/Tez作为执行引擎使用压缩使用parquet/orc格式join优化基于CBO的优化分区partitio原创 2020-11-12 22:44:11 · 659 阅读 · 0 评论 -
Hive——Hive/Spark SQL解析JSON对象、JSON数组
文章目录窗口分析函数1. 分析函数2. 聚合函数3. 窗口函数行列转换1. 行转列2. 列转行JSON处理1. JSON对象2. JSON数组时间处理 窗口分析函数函数中用到的表数据如下图:1. 分析函数row_number()rank()dense_rank()这3个函数通常用在组内排序中,但实现的效果却不相同,用法如下:select name,subject,score, row_number() over(partition by name orde原创 2020-07-14 23:53:58 · 2349 阅读 · 0 评论 -
Hive——pyhive依赖模块sasl安装(pip install sasl)报错Microsoft Visual C++ 14.0 is required
error: Microsoft Visual C++ 14.0 is required. Get it with “Microsoft Visual C++ Build Tools”: https://visualstudio.microsoft.com/downloads下载地址 https://docs.microsoft.com/zh-cn/visualstudio/releaseno...原创 2019-07-26 20:44:21 · 11698 阅读 · 23 评论