Hive大白话(●二●)

Jodie大白话

已于 2022-09-03 10:06:17 修改

阅读量325

点赞数

分类专栏：大数据文章标签：大数据 hive

于 2022-08-31 21:34:32 首次发布

本文链接：https://blog.csdn.net/qq_41847894/article/details/126628800

版权

大数据专栏收录该内容

14 篇文章 0 订阅

订阅专栏

💟这里是CS大白话专场，让枯燥的学习变得有趣！

💟没有对象不要怕，我们new一个出来，每天对ta说不尽情话！

💟好记性不如烂键盘，自己总结不如收藏别人！

💌先建一个员工开销表：

💌接下来我们来区分下列语句的区别~

🧡order by

💌全局排序，只有一个Reducer。

🍠默认asc（升序），结尾加desc（降序）。

select * from business order by cost;

🍠如果存在相同的数值，则可以多加一个字段（最好唯一）进行二次排序。

🧡sort by

💌order by效率较低，使用sort by设置多个Reducer，为每个Reducer产生一个排序文件，每个Reducer内部进行排序，并非全局排序。

set mapreduce.job.reduces=3;
set mapreduce.job.reduces;

select * from business sort by id;

💌可以看到单独使用sort by并没啥效果...所以最好搭配distribute by。

🧡distribute by

💌控制某个特定行应该到哪个reducer，根据分区字段的hash码与reduce的个数进行模除后，余数相同的分到一个区。

🍠先通过id分区，再通过开销升序排序：

select * from business distribute by id sort by cost;

🧡cluster by

💌当distribute by和sort by（搭配）字段相同时，可以使用cluster by方式，但是排序只能是升序。以下两种方式等价：

select * from business distribute by id sort by id;
select * from business cluster by id;

🧡partition by

💌类似distribute by，与order by搭配，都不会减少原表中的行数。

select
    id,
    name,
    sum(cost) over (partition by name) total_cost
from 
    business;

💌与窗口函数over()相关的函数：

over()前：

🍠聚合函数：

avg()、sum()、max()、min()、count()。

🍠排序：

rank() ：排序相同时会重复，总数不会变，即11345。
dense_rank() ：排序相同时会重复，总数会减少，即11234。
row_number() ：会根据顺序计算，即12345。

over()内：

CURRENT ROW：当前行

n PRECEDING：往前n行数据

n FOLLOWING：往后n行数据

UNBOUNDED：无界限

UNBOUNDED PRECEDING：表示从起点

UNBOUNDED FOLLOWING：表示到终点

LAG(col,n,default_val)：往前第n行数据，往下移n行

LEAD(col,n, default_val)：往后第n行数据，往上移n行

NTILE(n)：把有序窗口的行分发到指定数据的组中，各个组有编号，编号从1开始，对于每一行，NTILE返回此行所属的组的编号。比如n=5，将数据分成五组，方便取每组数据。

select
    name,
    cost,
    sum(cost) over(partition by name order by orderdate rows between UNBOUNDED PRECEDING and CURRENT ROW) total_cost
from 
    business;

🧡group by

💌类似distribute by，但是会减少原表中的行数。

select
    name,
    sum(cost) total_cost
from
    business
group by name;

🍠select后第一个字段为分组字段。

Jodie大白话

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hive大白话(●二●)

🧡order by🧡sort by🧡distribute by🧡cluster by🧡partitionby🧡group by
复制链接

扫一扫

专栏目录